„Bohemistyka” 2013, nr 1, ISSN 1642–9893 zwi¹zanych z armi¹, szkolnictwem wy¿szym czy koœcio³em, choæ i tu pojawiaj¹ siê sporadycznie ich ¿eñskie derywaty. Warto zatem obserwowaæ rozwój polskiego nazewnictwa zawodowego kobiet, szczególnie w odniesieniu do jêzyka czeskiego.
Literatura C v r è e k V. (red.), 2010,
Mluvnice souèasné èetiny,
è. 1, Praha.
D a l e w s k a - G r e ñ H., 1989, Nazwy osobowe rodzaju mêskiego problemy ³¹czliwoci i referencji,
Praha
Pouûití korpusu ve výuce èeštiny – nìkteré interferenèní chyby polských mluvèích v èeštinì zachycené v chybové databázi CHRUP
Poradnik Jêzykowy, z. 4, s. 210220.
D e m b s k a K., 2012, Tendencje rozwojowe polskich i rosyjskich nazw zawodowych kobiet na tle jêzyka czeskiego,
Toruñ.
H a v r á n e k B., J e d l i è k a A., 1963, J a d a c k a H., 2008,
Katarzyna VACULOVÁ
Èeská mluvnice,
Praha.
Kultura jêzyka polskiego. Fleksja, s³owotwórstwo, sk³adnia,
Klíèová slova: Èeské korpusy, ûákovský korpus, studijní korpus, L2 korpus Keywords: Czech corpora, learner corpus, L2 corpus Abstract
Warszawa. K a r l í k P., N e k u l a M., R u s í n o v á Z. (red.), 1995, Pøíruèní
mluvnice èetiny,
Pøíspìvek nastiòuje situaci korpusové lingvistiky v Èeské republice a soustøeïuje
Brno. K ³ o s i ñ s k a K., 2009,
Przechodzieñka nie przejdzie,
Polityka 25.08.2009, zob.:
se na otázku
ûákovských
korpusù, pøedevím na novì vzniklou databázi chyb
http://www.polityka.pl/spoleczenstwo/artykuly/299523,1,feminizm-w-jezyk
ruských, ukrajinských a polských mluvèích. Na tomto pozadí íøeji pojednává o jedné
u-polskim.read, 01.12.2009.
frekventované interferenèní polské chybì v èeském jazyce a na jejím pøíkladu uvádí
K u b i s z y n - M ê d r a l a Z., 2007,
¯eñskie nazwy tytu³ów i zawodów w s³ownikach
wspó³czesnego jêzyka polskiego,
M i o d e k J., 2004,
LingVaria, nr 1, s. 3140.
Pytanie o ¿eñskie nazwy profesji,
Gazeta Wyborcza Szczecin,
5.09.2005, http://szczecin.gazeta.pl/szczecin/1,34937,2269026.html,1.12.2009. O b r ê b s k a - J a b ³ o ñ s k a A., 1949, O
¿eñskich formach tytu³ów i nazw zawodów,
Mluvnice èetiny,
S³owniki S³ownik jêzyka polskiego,
Warszawa.
D u b i s z S. (red.), 2003, Uniwersalny s³ownik jêzyka polskiego (USJP), Warszawa. D u n a j B. (red.), 1996,
S³ownik wspó³czesnego jêzyka polskiego,
Warszawa.
F i l i p e c J., D a n e F., M a c h a è J., M e j s t ø í k Vl. (red.), 2007, spisovné èetiny pro kolu a veøejnost, S³ownik jêzyka polskiego PWN on line:
of mistakes of Russian, Ukrainian and Polish speakers. On the basis of this backon this example it shows possible use of the CHRUP database in teaching Czech.
Praha.
D o r o s z e w s k i W. (red.), 19581969,
The article outlines the situation of corpus linguistics in the Czech Republic and focuses on the issue of learners corpora, and especially on the newly created database ground, it deals with one frequent Polish interferential error in the Czech language and
Poradnik Jêzykowy, z. 4, s. 14. P e t r J. (red.), 1986,
moûné pouûití databáze CHRUP ve výuce èetiny.
Praha.
http://sjp.pwn.pl/.
Slovník
Vznik korpusové lingvistiky je bezprostøednì spojen s vývojem poèítaèové techniky, která pronikla i do této vìdecké oblasti a zásadním zpùsobem zjednodušila excerpci a analýzu lingvistických dat. Proto bývá celá dostupná škála psaných a mluvených korpusù a v nich obsaûeného, bohatého jazykového materiálu pøedmìtem èastých jazykovìdných výzkumù. Avšak ve slovanském prostøedí bývá mnohem èastìji vyuûíván spíše badatelský potenciál korpusù pøed moûností jejich praktického zuûitkování. Korpusy tak mimo jiné zdánlivì zùstávají nedocenìnou pomùckou pøi výuce cizích jazykù. Z tohoto dùvodu bude pøedkládaná studie zamìøena právì na jejich pouûití 48
v pedagogické praxi. Nejdøíve bude podán struèný pøehled výsledkù fungování èeské korpusové lingvistiky, jejíû kvantum a zábìr jsou výjimeèné nejen ve slovanském mìøítku. Následnì bude pøedstavena Databáze chyb v èeštinì mluvèích s prvním jazykem slovanským (dále také jen CHRUP) a její pøínos pro polské bohemistické prostøedí. Na závìr budou prezentovány nìkteré nejèastìjší chyby objevující se v textech polských studentù, které tento korpus obsahuje. Korpusy v Èeské republice Rychlý vývoj korpusové lingvistiky v Èeské republice zaèal rokem 1994, kdy byl na Univerzitì Karlovì zøízen Ústav Èeského národního korpusu. Dnes vedle tohoto ústavu na vývoji korpusù v èeském prostøedí pracuje i mnoho dalších institucí. Popisujeme-li situaci v oblasti vývoje korpusù èeského jazyka, je tøeba podotknout, ûe jich existuje nebývalé mnoûství a fungují èásteènì nebo zcela nezávisle na sobì. Pod pojmem Èeský národní korpus (dále jen ÈNK) funguje pouze korpus, který je vyvíjen na jiû zmiòovaném ústavu a je jedním z nejvìtších národních korpusù v Evropì (Èermák, Schmiedtová 2004, s. 152). Avšak ani ÈNK není jen jeden soubor textù obsaûený v jednom editoru, jak bychom si mohli pøedstavovat. Mezi základní sloûky ÈNK patøí diachronní korpus (DIAKORP) s texty od konce 13. stol. do r. 1989, nìkolik synchronních psaných korpusù øady SYN, mezi nimiû najdeme jak ûánrovì vyváûené korpusy, tak korpusy publicistických textù. Jedná se o nìkolik korpusù, které se liší stáøím zahrnutých textù. Za samostatnou zmínku stojí Praûský závislostní korpus (PDT). Je to korpus èeštiny, který byl vyvinut na Matematicko-fyzikální fakultì UK na bázi textù ÈNK a vedle morfologické obsahuje i syntaktickou a sémantickou anotaci vèetnì anotace aktuálního èlenìní vìty. Mimo to existuje zde øada dalších korpusù (nìkteré z nich jsou souèástí ÈNK), na jejichû tvorbì se kromì dvou výše zmínìných institucí podílí i mnoho dalších. V tomto nepøeberném mnoûství nelze nejmenovat Praûský mluvený korpus (PMK), Brnìnský mluvený korpus (BMK), korpus neformální mluvené èeštiny (ORAL), Praûský závis49
lostní korpus mluvené èeštiny (PDTSC), korpus školní komunikace (SCHOLA), korpus odborných lingvistických textù (LINK), korpus soukromé korespondence (KSK), Olomoucký korpus mluvené èeštiny (OMK), Praûský fonetický korpus (PFK) a Èeský akademický korpus (ÈAK). V èeském prostøedí jsou vytváøeny i dvojjazyèné korpusy, jmenujme pøedevším rozsáhlý projekt ÚÈNK InterCorp. Ten obsahuje èeské texty spolu s jejich pøeklady do 27 jazykù (nebo z tìchto jazykù do èeštiny), z nichû 17 je opatøených morfologickou anotací. Vedle toho existuje také rozsáhlý Praûský èesko-anglický závislostní korpus (PCEDT). Je nutno podotknout, ûe vedle jednojazyèných a paralelních korpusù mateøského jazyka vznikají na èeské pùdì i cizojazyèné korpusy, coû je jednoznaèným dùkazem úrovnì a výsadního postavení èeské korpusové lingvistiky. Byly zde mimo jiné vytvoøeny korpusy dolní a horní luûiètiny (DOTKO a HOTKO) a také Praûský arabský závislostní korpus. Novinkou na èeské pùdì je vznik korpusù L2, jak je zvykem je nazývat v západní tradici (viz napø. Granger 2012). V èeském (a také obecnì slovanském) prostøedí nemají tyto korpusy tradici, a tudíû ani vûitý název. Lze se setkat s pojmy studijní korpusy (Èermák, Schmiedtová 2004, s. 154) nebo ûákovské korpusy (Šebesta, Škodová 2012). Jedná se o mluvené nebo psané korpusy shromaûïující materiál nerodilých mluvèích. Od standardních korpusù národních jazykù se liší tím, ûe jejich obsahem není konkrétní jazyk, ale mezijazyk, tj. jakýsi pøechodný stav mezi jazykem mateøským a cílovým (více o teorii mezijazyka viz Selinker 1987 nebo 1991). I kdyû první známý ûákovský korpus na svìtì vznikl uû zaèátkem 90. let 20. století v Belgii, ve slovanském prostøedí dosud jsou tyto korpusy pøítomné jen sporadicky, znám je jen slovinský korpus menšího rozsahu (Šebesta, Škodová 2010). V této souvislosti je èerstvì vytvoøený û á k o v s k ý k o r p u s è e š t i n y j a k o cílového jazyka (CZESL) zcela výjimeèným projektem velkého významu. Spojení „cizí jazyk” v jeho názvu nefiguruje, protoûe materiál byl 50
získáván i od romských a jiných bilingvních mluvèích, pro nìû èeština nemùûe být povaûována za cizí jazyk. Korpus obsahuje psané a v menší míøe i mluvené projevy na všech úrovních znalosti èeštiny v rozsahu celkem pøes 2 miliony slov a je tak nejvìtším neanglickým ûákovským korpusem (Šebesta, Škodová 2010). Jeho èást je morfosyntakticky anotovaná, a proto umoûòuje rozsáhlou kontrastivní analýzu (další podrobnosti o tomto projektu viz napø. Šebesta, Škodová 2012). Databáze CHRUP – chyby ruských, ukrajinských a polských mluvèích Kromì tohoto rozsáhlého ûákovského korpusu vznikají v èeském prostoru menší ûákovské databáze, spoluautorkou jedné z nich je i autorka tohoto pøíspìvku. Jedná se o Databázi chyb v èeštinì mluvèích s prvním jazykem slovanským konkrétnì zachycující chyby ruských, ukrajinských a polských mluvèích – odtud název databáze CHRUP1. Tato elektronická databáze vznikala v letech 2011–2013 v rámci dvouletého projektu financovaného Grantovou agenturou Univerzity Karlovy (èíslo grantového projektu 286411) a bude v nejbliûší dobì volnì pøístupná na adrese: http://chrup.ff.cuni.cz. V názvu nebylo zámìrnì pouûito slovo korpus, nebo byl tento nástroj plánován jako ménì rozsáhlá a nekomplikovaná databanka poskytující první pomoc uèitelùm a studentùm èeštiny, nikoliv jako rozmìrný, propracovaný korpus. CHRUP obsahuje celkem materiály od 185 osob, z toho 57 ruskojazyèných, 74 ukrajinskojazyèných a 54 polskojazyèných mluvèích. Zámìrnì zde nebylo pouûito pojmu národnost, nebo východiskem k zaøazení do jednotlivých kategorií v databázi byl uvedený mateøský jazyk. Národnost je pro tyto úèely pojmem pøespøíliš symbolickým a individuálnì vnímaným, navíc zde v první øadì šlo o rozlišení respondentù z hlediska jazykové biografie. Do databáze nebyli zaøazo1
Tento projekt z èásti navazuje na fonetickou Databázi mluvené èetiny cizincù
s rutinou jako prvním jazykem.
51
váni bilingvní mluvèí èeštiny s prvním jazykem polským, ruským a ukrajinským. Ve všech pøípadech se tedy jedná o osoby, pro nìû je èeština cizí jazyk, pøeváûnì na niûších úrovních její znalosti. Samotná úroveò jazykové kompetence respondentù nebyla pøedmìtem dotazníku, jehoû vyplnìní bylo pøedpokladem zaøazení textù do projektu, jelikoû jde o velice subjektivní mìøítko. Místo toho byla zjišována délka studia èeštiny, která byla spolu s pohlavím, vìkem, mateøským jazykem obou rodièù i partnera, s informací o tom, zda respondent ûije v ÈR, a o dùvodech, které ho ke studiu vedly, jedním z kritérií, podle kterých je umoûnìno vyhledávání. Vedle toho je moûné hledat podle kategorií chybové taxonomie. Ta byla rozdìlena do základních pìti skupin: písmo a pravopis, morfologie, syntax, styl a lexikum, které se s výjimkou kategorie stylistických chyb dále tøídí. S ohledem na maximální uûivatelskou pøehlednost a jednoduchost je vyhledávání omezeno na volbu konkrétní kategorie, popø. více kategorií z pøedem pøipraveného menu. Není tedy potøeba studium manuálu, znaèek a zpùsobu zadávání komplikovaných øetìzcù, jak je tomu napø. v pøípadì ÈNK. Databáze obsahuje kratší texty (od kaûdého mluvèího 1 aû 5) s nevìdeckou, kaûdodenní tématikou. Takto nastavená volba tématu mìla redukovat pøípadný vliv pøedloh a zcela odstranit moûnost zahrnutí citací do databáze. Jazykový materiál není automaticky morfosyntakticky anotován a byl podroben výluènì ruèní jednoúrovòové chybové anotaci. Chybová taxonomie a anotace ûákovských korpusù jsou natolik komplikované otázky, ûe by mìly být pøedmìtem samostatné studie. Zde pouze podotkneme, ûe je automatická bezchybná anotace mezijazyka velice nároèná aû nemoûná. Dokonce automatické znaèkování pøirozeného jazyka a regulérních textù není snadné a obsahuje chyby zpùsobené mimo jiné tvarovou homonymií a není 100% úspìšné (o úspìšnosti tagování korpusu viz napø. Skoumalová 2011). Více informací k otázce anotace chybových korpusù lze najít v pracích týmu korpusu CZESL (viz napø. Škodová, Štindlová, Hana, Rosen 2011). 52
Výuka èeštiny pro polské mluvèí V souèasné dobì je nabídka uèebnic a publikací vìnující se výuce èeštiny jako cizího jazyka velmi bohatá. Pøesto polští mluvèí nemají k dispozici výukový materiál, který by umoûòoval výuku èeštiny na pozadí polštiny jako blízce pøíbuzného jazyka a jsou nuceni vycházet z uèebních materiálù pøipravených pro anglické èi nìmecké mluvèí. Jedinou dle autorèina vìdomí existující uèebnicí èeštiny pro Poláky je publikace od Batowského z padesátých let 20. století, která je samozøejmì jak s ohledem na tematiku textù, tak pouûívanou metodiku z dnešního hlediska zcela nepouûitelná. Taková výuka je následnì mnohem ménì efektivní a mnohdy pro polského studenta èeštiny únavná, jelikoû v ní není kladen patøièný dùraz na výuku a procvièování jevù, které jsou z jeho hlediska obtíûné, naopak pro nìj jednodušším otázkám je vìnováno pøespøíliš pozornosti. Pochopitelnì záleûí na konkrétním uèiteli, jak s uèebnicí nepøizpùsobenou pro polské mluvèí naloûí. Avšak vyûaduje to od nìj mnoho vlastní invence a práce. V této situaci se jako uûiteèná pomùcka v pøípravì hodin výuky èeštiny jeví korpus. Pomocí korpusù a databází uèitel (nebo i student) mùûe pomìrnì rychle zjistit, jaké chyby jsou typické pro polské mluvèí, a shromáûdit potøebné kontexty a pøíklady, v nichû se objevují, aby je mohl pouûít ve výuce nebo ve studiu. V této souvislosti budou dále uvedena základní zjištìní a moûný zpùsob práce s databází CHRUP.
a nìkteré deklinaèní vzory, zejména mìkké. Hlavní problémy se objevují rovnìû v oblasti lexika a stylistiky. Zde bude pozornost vìnována jen jedné z typických chyb, a to konkrétnì jevu, který nenacházíme v uèebnicích, avšak v textech shromáûdìných v databázi se bìûnì objevuje. Jde o otázku pouûívání ukazovacího zájmena to. Zatímco v èeštinì plní toto pronominum pøedevším základní syntaktickou substituèní a deiktickou funkci (Èermák 2001, s. 183), v polštinì vystupuje do popøedí odkazování v širším slova smyslu. Toto demonstrativum nese v polštinì totiû schopnost vyjádøení deiktických kategorií osoby a èasu jako souèást sloûeného predikátu. Plní tedy funkci spony, kterou v èeštinì mùûe zastupovat pouze sloveso být nebo kategoriální slovesa provádìt, konat atd. (Daneš, Hlavsa, Grepl 1987, s. 23). Proto jsou v polštinì zcela správné vìty jako: Wiedza to potêga. a Czas to pieni¹dz. (Nagórko 1998, s. 283). Nahrazení slovesa být kopulou to je moûné i v jiných slovanských jazycích, ale výhradnì v konkrétní stylistické funkci, napø. v heslech a titulech (Dalewska-Greñ 2002, s. 473). V polštinì jde o uûití ze stylistického hlediska zcela neutrální. Pod vlivem polských vazeb se následnì v èeštinì objevují tyto vazby (všechny pøíklady jsou uvedeny pøímo z databáze, tj. se zachováním veškerých ostatních chyb ve vìtì): Zdravý
ûivot to zdravé jdlo.
Hanka to jeho manûelka. Nejlepí povolání to lekáø.
Chyby v èeštinì polských mluvèích Jedním ze základních zjištìní, které nám CHRUP poskytl, je skuteènost, ûe polským mluvèím k tomu, aby byli schopni tvoøit základní, srozumitelné texty v èeštinì, staèí pomìrnì krátká doba studia èeštiny, nebo uû po pùl roce jsou schopni takové texty tvoøit i v psané podobì. Avšak i v pokroèilejších stádiích výuky jejich projevy nejsou zcela bezchybné. V databázi bylo zaznamenáno mnoho opakujících se chyb. Nejèastìjší jsou chyby v kvantitì vokálù a interpunkèní chyby. Vedle toho dìlá polským studentùm evidentní potíûe èeský slovosled 53
V polštinì lze dokonce obì uûití (substituèní a sponové) umístit ve vìtì v tìsné blízkosti, proto se pak mùûou vyskytovat chybné èeské vìty jako napø.: Druhá vìc, která se mi tady líbí to to.
Demonstrativum ve významu spony je v polštinì pravidelnì pouûíváno, pokud se podmìt a jmenná èást predikatu liší v kategorii èísla, zatímco v jiných jazycích vèetnì èeštiny je v takových pøípadech forma slovesa vyjadøena v mnoûném èísle, por. èes. Dítì jsou starosti 54
a pol. Dziecko to k³opoty (Dalewska-Greñ 2002, s. 480). Pøíklady dokazující pokusy o aplikaci tohoto pravidla v èeském kontextu nacházíme opìt v databázi:
Literatura B a t o w s k i H., 1950, È e r m á k F., 2001,
Sebeovládání, silné nervy, odvaha to vlasnosti.
Podrêcznik jêzyka czeskiego.
Ksi¹¿nica Atlas, Wroc³aw
Warszawa.
Èermák
F.,
Jazyk a jazykovìda.
Schmiedtová
Karolinum, Praha.
V., 2004,
charakteristika a irí souvislosti.
Tradièní rodina to také prarodièe a jiné èlenové.
Èeský
národní
korpus
základní
Národní knihovna knihovnická revue,
roè. 15, è. 3, s. 152168. D a l e w s k a - G r e ñ H. 2002,
Vady toho modelu to èasté konflikty mezi èleny rodiny.
Jêzyki s³owiañskie.
D a n e F., H l a v s a Z., G r e p l M. 1987,
Jeho pøátele to lesní zvíøata.
PWN, Warszawa.
Mluvnice èetiny 3, Skladba.
Acade-
mia, Praha.
Mimo to je v polském jazyce obvykle uûití vazby demonstrativum to + sloveso být v pøípadech, kdy autor vypovìdí nechce pouûít instrumentál, proto napø. místo Te skrzypce by³y kiedyœ piêknym instrumentem uvede Te skrzypce to by³ kiedyœ piêkny instrument (Dalewska-Greñ 2002, s. 481). Pøestoûe je v èeštinì oproti polštinì bìûné uûití nominativu ve jmenné èásti pøísudku (o konkurenci nominativu a instrumentalu viz napø. Štícha 1980), v textech polských mluvèích se vlivem mateøského jazyka pøíklady takové aplikace pøedmìtného pronomina objevují:
G r a n g e r S. 2012, How to Use Foreign and Second Language Learner Corpora. In: Mackey A., Gass S. M. eds. Aquisition. A Practical Guide.
N a g ó r k o A., 1998, Selinker
Zarys gramatyki polskiej.
L., 1987,
linguistics.
Research
Methods
in
Second
Language
Wiley-Blackwell, Oxford, s. 729.
Interlanguage,
PWN, Warszawa.
In: Nehls D. ed.
Studies
in
descriptive
Groos, Heidelberg, vol. 17.
S e l i n k e r L., 1991,
Rediscovering interlanguage.
S k o u m a l o v á H., 2011: Rosen A. eds.
Longman, London.
Porovnání úspìnosti tagování korpusu.
Korpusová
a znaèkování korpusù.
lingvistika
Praha
2011,
In: Petkeviè V.,
sv.
3:
Gramatika
Nakladatelství Lidové noviny/Ústav èeského národní-
ho korpusu, Praha, s. 199207. e b e s t a K., k o d o v á S., 2010, ákovský korpus a jeho vyuûití pro èetinu jako
Prarodièe jsou to lidé.
druhý jazyk..
In:
Sborník pøíspìvkù z Konference 20 let vývoje didaktiky
cizích jazykù. Liberec 3. prosince 2010,
Tak Èeská republika to byla pro mì zemì krasných míst a pohádek.
Fakulta pøírodovìdnì-humanitní
a pedagogická katedra románských jazykù Technická univerzita v Liberci,
Vedle toho se objevují konstrukce, které jsou kontaminací bìûného deiktického pouûití moûného také v èeštinì a polských konstrukcí s to jako kopulí.
Liberec. ebesta
K.,
kodová
S. a kol., 2012,
Èetina cílový jazyk a korpusy.
Technická univerzita v Liberci, Liberec. k o d o v á S., t i n d l o v á B., H a n a J., R o s e n A., 2011, anotace èeského ákovského jazyka.
Televize je to lidské okno na svìt.
Víceúrovòová
In: Petkeviè V., Rosen, A. eds.
Korpu-
sová lingvistika Praha 2011 3 Gramatika a znaèkování korpusù.
Nakla-
datelství Lidové noviny, Praha, s. 208235.
Katka je to krasná holka.
Protoûe se tento druh chyby objevuje témìø ve všech pracích, rovnìû pokroèilých studentù, lze konstatovat, ûe by mìl být na nìj kladen ve výuce vìtší dùraz. Výše uvedená exemplifikace je pouze jedním z pøíkladù moûností vyhledávaní a interpretace polských interferenèních chyb v èeštinì v databázi CHRUP jako potenciálního zpùsobu zefektivnìní studia a výuky èeštiny. 55
tícha
F.
Konkurence
nominativu
v souèasné spisovné èetinì.
56
a
instrumentálu
pøísudkového
Nae øeè, roè. 63, 1980, è. 4.
substantiva