Gramatika a korpus 2012: 4. mezinárodní konference Grammar and Corpora 2012: 4th International Conference U příležitosti stého výročí narození Miloše Dokulila On the occasion of Miloš Dokulil’s 100th birthday 28.–30. listopadu 2012 November 28–30, 2012 sídlo Akademie věd České republiky, Národní 3, Praha the headquarters of the Czech Academy of Sciences, Národní 3, Prague
Abstrakty / Abstracts
2
Korpus velkých písmen Martin Beneš
[email protected] Příspěvek představí způsob anotování a naznačí možnosti využití korpusu velkých písmen, postupně budovaného v rámci grantového úkolu Psaní velkých písmen v češtině v oddělení jazykové kultury ÚJČ AV ČR. Materiálovou bázi tohoto korpusu tvoří výrazy, které byly manuálně excerpovány z e-mailové korespondence jazykové poradny s tazateli v letech 2006– 2009 a z telefonických dotazů a v souvislosti s nimiž tazatelé kladli otázky, zda a (příp.) na kterých místech v nich psát velká písmena (VP). Jelikož původní databázi není možné strukturovaně prohledávat, bylo rozhodnuto pořídit její elektronickou anotovanou verzi – zmíněný korpus velkých písmen. Na základě teoretických úvah nad funkcemi VP v českém pravopise, nad definičními rysy proprií, nad pravidly o psaní VP (vyplývajícími ať už přímo, či nepřímo z PČP) byl vypracován specifický způsob popisu distribuce VP v češtině. V konkrétním (nejasném) případě je třeba pro správné napsání VP řešit dvě otázky – nejprve tzv. sémantickou (je daný výraz proprium?), pokud je odpověď kladná (a je-li proprium víceslovné), pak i tzv. otázku strukturní (jaká část propria je tzv. druhová a jaká tzv. propriální, tj. v jakých jeho částech psát VP?). Z těchto otázek, jež reprezentují mimojazykové informace, jejichž potřebnost se v souvislosti s psaním VP opakovaně zdůrazňuje, vyplývá způsob anotování původní prosté databáze. Každému řetězci, který byl jakožto předmět dotazu směřovaného jazykové poradně do databáze zařazen, je v první řadě přidělena informace o tom, zda jde, nebo nejde o proprium (což následně umožní získat např. přehled o apelativech, která mají mluvčí tendenci psát s VP). U každého propria (zásadní je to zejména u proprií víceslovných) je dále rozlišena jeho tzv. druhová složka (reprezentující v jeho celku druh pojmenovávané skutečnosti) a jeho tzv. samotná propriální složka (název, který je konkrétnímu exempláři dané třídy jevů označovaných výrazem pro druhovou složku aktuálně přidělen). U každé části (důležité je to opět v případě částí víceslovných) je určeno pořadí v lineárním řetězci jejích jednoduchých složkových výrazů a zaznamenáváno, zda se v ní má psát VP, nebo MP a zda tato konkrétní pozice ne/byla předmětem tazatelova dotazu. Tak např. v propriu Sídliště Generála Píky budou jednotlivým složkám přiřazeny následující charakteristiky: Sídliště, druhová složka (srov. sídliště Máj, řeka Labe), 1. výraz, předmět dotazu, VP; Generála, propriální složka, 1. výraz, Gen, VP; Píky, propriální složka, 2. výraz, Gen, VP. V takto anotovaném korpusu bude možné zadávat dotazy typu: „Najdi všechna propria, v jejichž druhové složce se u prvního výrazu píše MP a jejichž propriální složka je v genitivu.“ Cílem korpusu není primárně získávat kvantitativní charakteristiky, ale zjistit, jaké strukturní typy proprií se vymykají explicitním nebo implicitním pravidlům o psaní VP v češtině (jako náš příklad se sídlištěm – drtivá většina druhových složek se píše s MP); a u nich pak příp. navrhnout/doporučit změnu kodifikace (budou-li se zdát neodůvodněné), nebo je v co nejúplnější míře zaznamenat (budou-li se zdát odůvodněné nebo dobře motivované).
Funkcionální vidové dvojice v Českém národním korpusu Tilman Berger
[email protected] Mezi nejspornější témata slovanské aspektologie patří otázka, jestli dokonavé protějšky nedokonavých sloves můžou být vytvořeny prefixací. V české jazykovědě byla většinou
3
formulována v té formě, jestli existují prostě vidové prefixy (což však není úplně totéž), a odpověď na ni bývá záporná (viz např. Komárek 1984). V rusistice je však představa, že existují funkcionální vidové dvojice, tj. takové dvojice jednoduchého a prefigovaného slovesa, které v textu fungují jako vidové ekvivalenty, i když prefix má svůj vlastní význam, čím dál tím populárnější. Velká objem Českého národního korpusu nám umožňuje hledat věty, v nichž vystupují oba členy vidové dvojice, srov. např.: (1) Byl možná jediný, kdo cítil, že Mike dělá, co udělat musí. (2) Situace, jež není vysloveně drastická, se dá řešit a vyřešit. Chci ukázat, jak nám takové doklady pomáhají posoudit, které dvojice jsou funkcionálně ekvivalentní a které nikoliv. Dále chci diskutovat několik sporných případů, kde zdánlivě existuje více než dva ekvivalenty (např. vítat – přivítat/uvítat, mlít – umlít/semlít). Literatura: Komárek, M. 1984. Prefixace a slovesný vid (K prefixům prostě vidovým a subsumpci. Slovo a slovesnost 45, 257–267. Lehmann, V. 1993. Die russischen Aspekte als gestufte Kategorien. Die Welt der Slaven 38, 265-297. Van Schooneveld, C. H. 1958. The so-called . In: Dutch Contributions to the Fourth International Congress of Slavicists. s’-Gravenhage. 159-161. Zaliznjak, A. A., Šmelev, A. D. 1997. Lekcii po russkoj aspektologii. München.
Pseudodeminutiva v češtině Jana Bílková
[email protected] Deminuce je jednou ze základních modifikačních onomasiologických kategorií. Z hlediska strukturního jsou deminutiva definována jako substantiva, která vznikla modifikací významu základových substantiv příznakem deminuce (zdrobnění). Význam deminutiva je dán významem základového substantiva a deminutivního sufixu. Vícestupňový systém deminutiv v češtině, charakteristický složitými formálněsémantickými vztahy, je dále komplikován na jedné straně existencí slov, která jsou po formální stránce deminutivy, ale jejichž význam není primárně deminutivní (deminutivní příznak je u nich oslaben), tedy existencí formálních deminutiv se sekundárním, lexikalizovaným, často specifikačním významem – popílek, večírek, sloupek, kočárek, hubička, čárka, kolečko, na druhé straně také existencí slov, která mají jistý deminutivní významový příznak (kvantitativní či emocionální), z formálního hlediska však do souboru deminutiv nepatří. Příspěvek si všímá právě takových slov, která mají deminutivní příznak, ale nevznikla deminutivní modifikací základového substantiva, tj. která byla odvozena od nesubstantivních základů (event. u kterých základové slovo chybí). Jedná se o deverbativa a deadjektiva, a to především o a) jména nositelů vlastnosti (ufňukánek, neviňátko), b) jména předmětů a prostředků činnosti (zrcátko, louskáček), c) jména botanická a zoologická (moudivláček, silenka). Deminutivní příznak takových slov (´pseudodeminutiv ´) je důsledkem jednak
4
sufixální homonymie (jsou derivována sufixy, které jsou se sufixy deminutivními homonymní), jednak paralelní derivace (jejich deminutivní příznak vzniká na pozadí paralelně utvářených substantiv, u nichž se deminuce nepociťuje – např. zrcátko - zrcadlo; rozcuchánek - rozcuchanec). Příspěvek vychází z dat získaných prostřednictvím Českého národního korpusu SYN.
Kompozice a její potenciál v současné slovní zásobě češtiny Ivana Bozděchová
[email protected] Jako druhý hlavní způsob tvoření slov v češtině má kompozice tradičně zastoupení především u některých typů pojmenování, mezi nimi zejména odborných (termínů, příp. dalších profesionálních a speciálních názvů). Podíl kompozičního tvoření (různých typů) však narůstá také v lexiku současných textů publicistických a běžně mluvených. Příspěvek se pokouší ilustrovat využití slovotvorné kompozice u vybraných typů pojmenování osob (jmen činitelských, konatelských a nositelů vlastnosti), a to na základě konfrontace lexikografického zaznamenání těchto názvů ve výkladových slovnících češtiny (počínaje Slovníkem spisovného jazyka českého), slovnících neologismů a cizích slov s výskytem v textech Českého národního korpusu. Korpusové materiály umožní posoudit nejen produktivitu těchto kompozit, ale také jejich funkčnost a stylovou platnost.
Odlučitelná předpona preč a prefix wot- ve starší hornolužické srbštině a jejich role při gramatikalizaci slovesného vidu Katja Brankačkec
[email protected] Odlučitelná předpona preč a prefix wot- ve starší hornolužické srbštině a jejich role při gramatikalizaci slovesného vidu V sorabistické literatuře najdeme opakovaně tezi o zvláštní roli tzv. odlučitelných předpon (v germanistické literatuře označených jako verb particles resp. Verbpartikeln) při vzniku vidových párů: slovesné odvozeniny s těmito předponami, vzniklé pod vlivem německých sloves s odlučitelnou předponou, mohou dle této teze být imperfektivním partnerem perfektivních sloves s prefixem „stejného významu“, např. won hić – wuńć (doslovně: jít ven – vyjít), srov. Michalk 1959, Brijnen 2000, Toops 2001a a 2001b, Scholze 2007. Příspěvek zkoumá využití předpony wot- a odlučitelné předpony preč ve starší hornolužické srbštině. Na základě korpusu starší hornolužické srbštiny ukážeme, že zdánlivá synonyma mají ve starší lužické srbštině spíše odlišný význam. Jediné možné vidové páry typu preč hić (ip) – woteńć (p) jsou takové odvozeniny, v nichž mají prefix a odlučitelná předpona směrový (direkcionální) význam. Doklady s takovými slovesy nalezené v korpusu však nepodporují tezi o vzniku vidových párů, v nichž by sloveso s odlučitelnou předponou fungovalo jako imperfektivní partner. Doklady naopak podporují tezi, že slovesa pohybu s prefixem wot- jsou spíše vidově neutrální, popř. obouvidové. Volba mezi prefixem wot- a odlučitelnou předponou preč je pravděpodobně nejvíce ovlivněna kontaktním jazykem (němčinou) a významem odpovídajících sloves, respektive předpon v něm.
5
Literatura: Brijnen 2000: German Influence on Sorbian Aspect: The Function of Directional Adverbs, In: Gilberts, Dickey et al (Hrsg.): Languages in contact. (Studies in Slavic and General Linguistics, 28), Rodopi, Amsterdam, Atlanta, 67–71 Michalk 1959: Über den Aspekt in der obersorbischen Volkssprache, In: Zeitschrift für Slawistik 4, 241–253 Scholze 2007: Das grammatische System der obersorbischen Umgangssprache, Konstanzer Online-Publikations-System (KOPS), http://nbn-resolving.de/urn:nbn:de:bsz:352-opus-32217 Toops 2001a: Aspectual Competition and Iterative Contexts in Contemporary Upper Sorbian, In: Journal of Slavic Linguistics 9/1, 127–154 Toops 2001b: The Grammar of „Paraphrastic Imperfectives“ in Latvian and Upper Sorbian, In: Slavic and East European Journal Vol. 45, No 1, 96–114
Člověk v množném čísle (v historické i v současné češtině) Alena M. Černá
[email protected] Příspěvek pojednává o konkurenci paradigmatických a supletivních plurálových (včetně staročeských duálových) tvarů lexému člověk ve starší i v současné češtině. Za výchozí jsou pro starou češtinu pokládány tvary nom. duálu člověky a nom. plurálu člověci, člověkové, ľudie, u nichž dochází k posunům formálním (záměny původních o-kmenových tvarů za tvary jiných kmenů; změny hláskoslovné), gramaticko-funkčním (oboustranné záměny plurálových a duálových tvarů) i sémantickým. Příspěvek se zabývá vývojem této konkurence v češtině doby střední a současné. Dnešní stav ukazuje, že ve funkci plurálových tvarů je v (nespisovné) češtině užíváno vedle tvarů lidé/lidi též tvarů člověci/člověkové, tedy tvarů z historického hlediska náležitých, avšak v současném jazyce silně příznakových. Cílem je mj. definovat řečové situace, v nichž je upřednostněn příznakový tvar paradigmatický před tvarem supletivním. Materiálovou bázi příspěvku tvoří korpus současné češtiny a veřejné i neveřejné korpusy a textové banky historické češtiny, dále internet a pro historickou češtinu i další zdroje (zejména historické gramatiky a slovníky). Součástí příspěvku jsou citace dokladů, jež jsou pro objasnění formálního i sémantického charakteru lexému nezbytné.
Nástroj pro slovotvornou analýzu jazykového korpusu Václav Cvrček, Pavel Vondřička
[email protected],
[email protected] Česká slovotvorba udělala především zásluhou zakladatelského počinu M. Dokulila velký pokrok v oblasti teorie tvoření slov. Menší pozornost byla (i s ohledem na někdejší nedostupnost dat a nástrojů) věnována kvantitativní stránce fenoménů zahrnovaných do této oblasti lingvistického bádání. Moderní jazykové korpusy přitom svým rozsahem i zpracováním přímo vybízejí k aplikaci teoretických poznatků a k popisu konkrétních oblastí v jejich relativní úplnosti. Jde přitom zejména o tato témata: formální vymezení slovotvorných
6
paradigmat, zkoumání jejich rozsahu a inventáře, určení centra/periférie a otázky produktivity jednotlivých způsobů tvoření. Nástroj, který hodláme v tomto příspěvku představit a který vznikl na materiálové základně korpusů ČNK, si klade za cíl usnadnit korpusově založené bádání v těchto oblastech. Aplikace není schopna automaticky hledat slovotvorné vztahy mezi jednotkami v korpusu, slouží ale k testování hypotéz o slovotvorných vztazích mezi různě specifikovanými vzory/dotazy. Uživatel aplikaci zadává na vstupu pomocí regulárních výrazů základní charakteristiku společné báze a odlišujících formantů (prefixů, sufixů apod.) dvojice (příp. trojice) slovotvorných vzorů. Na rozdíl od běžného korpusového vyhledávače tato aplikace výsledky dotazů mezi sebou porovnává a zjišťuje, zda se odlišují pouze ve specifikovaném formantu a shodují pouze ve specifikované bázi. Výsledkem je inventář všech nalezených tvarů či lemmat odpovídajících zadaným vzorům, a především jejich průnik - inventář tvarů se společným základem (a odlišným formantem) nalezeným v obou dvou (či více) vzorech, tedy tvarů účastnících se zadaného slovotvorného modelu, a mnoho dalších kvantitativních informací. Badatel může v rámci dotazu také specifikovat hláskové alternace, které se při odvozování můžou aplikovat, a určuje základní gramatické charakteristiky slova fundujícího a fundovaného (nejčastěji slovní druh). Aplikace pracuje v prostředí webového prohlížeče (tedy bez nutnosti instalace), nabízí možnost snadného odkazování na zadání kteréhokoli pokusu, což ulehčuje sdílení poznatků a snadné citování, a poskytuje uživateli rozsáhlou nápovědu a manuál ke snadnému použití. Na základě užívání tohoto nástroje, jehož oficiální zveřejnění se připravuje na listopad 2012, je možné zformulovat některé základní principy korpusově založené slovotvorby, které vyplývají z důrazu na sémaziologický a kvantitativní pohled na tvoření slov.
Negace a skopus kvantifikátorů
Mojmír Dočekal, Hana Strachoňová
[email protected],
[email protected] Věty přirozeného jazyka, ve kterých se vyskytuje negace a nějaké další kvantifikační výrazy, jsou alespoň principiálně víceznačné. Proto věta jako (1) má dvě možné interpretace (Hajičová (1975) rozlišuje mezi negací slabou a silnou, případně externí a interní), první tvrdí o všech námořnících, že měli tu vlastnost, že nebyli opilí (interní negace), druhá tvrdí, že není pravda, že všichni námořníci byli opilí. První interpretace je pravdivá jen v případě, že ani jeden námořník nebyl opilý, druhá v případě, že část námořníků byla opilá a část ne. V predikátové logice lze tento rozdíl zachytit jako rozdíl v dosahu negace: bud’ má negace dosah jen přes predikát (interní negace) – (1-a), nebo je v jejím dosahu celá formule (externí negace) – (1-b). To, že podobné věty přirozeného jazyka jsou víceznačné, je dobře známo, viz Jackendoff (1972) pro angličtinu, Hajičová (1991, 1975) pro češtinu a Büring (1997) pro němčinu. Všechny uvedené práce se navíc shodnou v tom, že to, která z obou interpretací je v daném přirozeném jazyce primární, je dáno především aktuálním členěním (např. česká věta (1) vykazuje silnou tendenci k tomu být interpretována jako (1-b)). Nicméně, pokud je nám známo, neexistuje zatím žádná studie, která by preference obou čtení v daném přirozeném jazyce zkoumala v korpusu (jediná výjimka pro angličtinu je Hoeksema (1999)). Proto bychom se chtěli (za prvé) věnovat právě tomuto problému. V korpusu SYN2005 lze najít jak doklady vět jasně interpretovaných s interním dosahem negace, viz (2-a), tak vět interpretovaných jasně s externím dosahem negace, viz (2-b).
7
Úkolem našeho příspěvku je na základě korpusu zjistit, které z obou čtení je v češtině preferované. Kromě aktuálního členění je totiž nutné zohlednit další lingvistický faktor – čeština má pro interní negaci gramatikalizovaný prostředek – negativní zájmena doprovázená negativní shodou na slovese. Negativní zájmena by tedy podle klasického Paniniho blokačního principu (viz Horn (1989), Kiparsky (1973) a mnozí další) měla blokovat možnost interpretace sekvence všechno …ne s interním dosahem negace, protože přesně tento význam je vyjádřitelný pomocí negativních zájmen (to je zřejmě hlavní důvod silné preference pro externí negační interpretaci věty (1)). Nicméně proti blokačnímu principu stojí aktuální členění, kde je podle Hajičové česká negace bezpříznakově interpretována tak, že subjekt je presuponován, tzn. interpretace negace je interní. Náš příspěvek se tedy pokusí ukázat (do té míry, do jaké lze na základě korpusových dat soudit), zda je pro českou negaci důležitější blokační princip, nebo aktuální členění. (1) Všichni námořníci nebyli opilí. a.
′
′
∀ x [ n a m o r n i k ( x )→¬o p i l y ( x ) ]
b.
′
′
¬∀ x [ n a m o r ni k ( x )→ o p i l y ( x ) ]
(2) a. b.
…a jak jsem ji kladla opatrně, aby nespadla a všechna ta jména se nevysypala …ozvalo se zaklepání na dveře. Tak přece se na něj všichni nevykašlali!
Reference: Büring, Daniel. 1997. The great scope inversion conspiracy. Linguistics & Philosophy 20:175–194. Hajičová, Eva. 1975. Negace a presupozice ve významové stavbě věty. Praha: Academia. Hajičová, Eva. 1991. Jsou záporné věty víceznačné? Slovo a slovesnost 52:280–284. Hoeksema, Jack. 1999. Blocking effects and polarity sensitivity. In JFAK: Essays dedicated to Johan van Benthem on the occasion of his 50th birthday, ed. Maarten de Rijke & Yde Venema Jelle Gerbrandy, Maarten Marx. Horn, Laurence R. 1989. A natural history of negation. Chicago: Unversity of Chicago Press. Jackendoff, Ray S. 1972. Semantic interpretation in generative grammar. Cambridge, Ma: MIT Press. Kiparsky, Paul. 1973. ’Elsewhere’ in phonology. In A Festschrift for Morris Halle, ed. Paul Kiparsky & Steven Anderson. New York: Holt, Rinehart and Winston.
A corpus-based study of gender assignment in recent English loanwords Thomas Egan, Gudrun Rawoens
[email protected],
[email protected] This paper examines the gender of recently borrowed English nouns in Norwegian. Gender assignment is part of the morphological integration of borrowed nouns, and although English loanword gender has been dealt with in previous studies (e.g. Graedler 1998; Johansson &
8
Graedler 2002), it is only during the past decade that large corpora of Norwegian have been made accessible for research, and thus enable comprehensive analyses of loanwords “based on large corpora of written and spoken [… language] in formal and informal settings from a variety of media” (Onysko 2007: 98). Grammars of Norwegian often view gender as a random lexical feature which is for the main part ”completely unpredictable” (e.g. Næss 2011: 126). On the other hand, several recent studies take a principled view of gender assignment as rule-based or dependent on inherent schemas (e.g. Trosterud 2001; Enger 2001; 2009; Halse 2004; Kristoffersen & Simonsen 2009). The gender assignment of loanwords may be regarded as natural test cases for hypotheses about productive gender and synchronous assignment rules, and thus contribute valuable information to the study of gender assignment principles in general, as well as with respect to loanwords in particular. Very few of the recent studies mentioned above are corpus-based, or use data from primarily contemporary sources. A recent study concludes that at least some aspects of the gender system of Norwegian seem to be in transition (Lødrup 2011), which again indicates that there may be good reason to look at the gender assignment of new anglicisms in order to capture some of the most recent trends in this area of grammar. The main source of data for the present study is the Norwegian Newspaper Corpus (http://avis.uib.no/). In addition to presenting data pertaining to gender assignment, the paper also briefly addresses methodological issues such as the suitability of corpora for loanword identification and extraction, and questions of size and representativeness. References Enger, H.-O. (2001). Genus i norsk bør granskes grundigere. Norsk Lingvistisk Tidsskrift 19, 163-183. Enger, H.-O. (2009). The role of core and non-core semantic rules in gender assignment. Lingua 119, 1281-1299. Graedler, A.-L. (1998). Morphological, semantic and functional aspects of English lexical borrowings in Norwegian. Oslo: Scandinavian University Press. Halse, G.E. (2004). Genustilordning i nynorsk: Ei datamaskinell etterprøving. MA thesis, University of Bergen. Johansson, S. & Graedler, A.-L. (2002). Rocka, hipt og snacksy: Om engelsk i norsk språk og samfunn. Kristiansand: Høyskoleforlaget. Kristoffersen, K.E. & Simonsen, H. G. (2009). Tilegnelse av genus hos norske, danske og islandske barn. Presentation of a research project, Cognitive summer seminar, Hamar, June 2009. Lødrup, Helge. 2011. Hvor mange genus er det i Oslo-dialekten? Maal og Minne 2, 120-36. Næss, Å. (2011). Global grammatikk: språktypologi for språklærere. Oslo: Gyldendal akademisk. Onysko, A. (2007). Anglicisms in German: Borrowing, Lexical Productivity, and Written Codeswitching. Berlin, New York: De Gruyter. Trosterud, T. (2001). Genus i norsk er regelstyrt. Norsk Lingvistisk Tidsskrift 19, 29-58.
9
Ke střídání vidu ve vyprávění v češtině François Esvan
[email protected] Je známo, že v češtině se sled událostí v minulém čase vypravuje převážně pomocí dokonavých sloves: (1) Břeťa se osprchovalP, obléklP bílou košili a do kapsy si strčilP pečlivě zabalenou růžovou kravatu od Edity […] seběhlP po schodech, nakoplP motorku a vyrazilP do tmy k poslednímu utkání. SYN2005 S. Ivančev (1961) však jako první upozornil na to, že na konci těchto řetězů dokovaných tvarů se nezřídka vyskytují i nedokonavá slovesa, (2) UkázalP na židli a já jsem se posadilP. VytáhlP jsem tabák a balilI si cigaretu. SYN2005 a to na rozdíl od jiných slovanských jazyků, např. ruštiny a bulharštiny, kde je v tomto kontextu nedokonavý vid prakticky vyloučen. Touto zvláštností se dále zabývali lingvisté jak z Česka (Křížková 1963), tak ze zahraničí (Galton 1976, Stunová 1993, Dickey 1997). Řeč byla hlavně o tom, jaký význam tyto nedokonavé tvary mají – zda ingresivní či eventuálně jiný – a do jaké míry je tento jev omezen na určité kategorie lexémů. Tomuto problému se budeme v našem příspěvku věnovat na základě korpusových dat. Vyhledali jsme výskyty jednoho či více nedokonavých tvarů v řetězcích dokonavých sloves v beletristických textech obsažených v korpusech SYN2000, SYN2005 a SYN2010. Rozbor získaných dokladů nám umožnil sestavit inventář sloves vyskytujících se v dotyčném kontextu a upřesnit, jaká je jejich funkce ve vyprávění. Bibliographie DICKEY, S. M., 2000, Parameters of Slavic Aspect. CSLI, Stanford. ESVAN, F., 2009, Notes sur l’aspect verbal en marge de la traduction tchèque d’un roman de Daniel Pennac. In: Erant in quidam civitate… Sborník na počest Daši Bartoňkové. Graeco-latina bruniensa, 14, 2009, 1–2, 79–91. ESVAN, F., 2010, Studi di corpus in ceco contemporaneo, UNO, Napoli. GALTON, H., 1976, The main functions of the Slavic verbal aspect, Macedonian Academy of Science and Art, Skopje. IVANČEV, S., 1961, Kontekstovo obuslovena ingresivna upotreba na glagolite ot nesvăršen vid v češkija ezik, Godišnik na Sofijskija universitet - filologičeski fakultet, t. 54, 3 (1959/60), Nauka i izkustvo, Sofija. KŘÍŽKOVA, H., 1963, K ingresivnosti v češtině. Slovo a slovesnost, 23, 286–291. STUNOVÁ, A., 2004, A contrastive Analysis of Russian and Czech Aspects: Invariance vs Discourse. Amsterdam.
České kontaktové javy na báze Slovenského hovoreného korpusu Katarína Gajdošová
[email protected] Českým kontaktovým javom v slovenčine sa v 90. rokoch minulého storočia venovala vo svojich prácach České kontaktové javy v slovenčine (2005) a Komunikatívna efektívnosť
10
českých kontaktových javov v súčasnej slovenčine (1991) Miloslava Sokolová. Bázovým základom jej výskumu sa v tom čase stali kodifikačné príručky, excerpty z dennej tlače, televíznych relácií, ale aj analýzy nahrávok voľných prehovorov študentov na Filozofickej fakulte Univerzity Pavla Jozefa Šafárika v Prešove. Druhý z uvedených príspevkov prináša analýzu použitia českých kontaktových prostriedkov a ich nekontaktových variantov na základe získaných informácií zo sociolingvistického dotazníka, ktorý autorka zostavila. V príspevku sa vrátime po viac ako dvadsiatich rokoch k výsledkom spomínaného sociolingvistického výskumu a porovnáme ho s kontaktovými prostriedkami a ich nekontaktovými variantmi, ktoré dnes zachytávajú slovenské korpusy, osobitne Slovenský hovorený korpus.
Minulá aktivní příčestí v paralelních rusko-českých textech Markus Giger
[email protected] Zatímco na rovině systémové je mezi češtinou a ruštinou v participiálním systému nápadná shoda (oba jazyky vykazují příčestí přítomné činné (přicházející, v české tradici „zpřídavnělý přechodník minulý“), minulé činné (přišedší, v české tradici „zpřídavnělý přechodník minulý“), minulé trpné a dva přechodníky), 1 na textové rovině to vypadá zcela jinak: přechodníky mají v češtině už jen minimální produktivitu, zvlášť přechodník minulý, a příčestí minulé činné, v ruštině značně produktivní v obou videch, má v češtině periferní postavení: je produktivní především u několika mála kořenů s jistou tendencí k terminologizaci (především od kořenů -stoup- a -běh-), většinou není syntakticky doplněno a je stylisticky příznakové, zvlášť pokud není tvořeno od omezeného okruhu sloves, u nichž je nejsilněji produktivní. U řady sloves je značná konkurence s příčestím l-ovým (přišlý, v české tradici zpřídavnělé příčestí minulé činné). Srov. Kopečný (1958), Damborský (1967), Giger (2010). Otevřenou otázkou zatím je fungování aktivního minulého příčestí v ruských a českých paralelních textech: vystupuje české PMČ(š) jako analogon ruského, a pokud ano, u kterých sloves, v jakých sémantických a syntaktických funkcích a jak často? Nahrazuje se ruské PMČ(š) českým l-ovým příčestím? Nahrazuje se ruské PMČ(š) nedokonavého vidu českým příčestím přítomným činným? Jak často vyřeší překladatelé z ruštiny do češtiny problém opisem? Jak běžně naopak nahrazují překladatelé do ruštiny české vedlejší věty ruským PMČ(š)? Jak chápou české l-ové příčestí? Jak vypadá situace v paralelních překladech z třetího jazyka? Na tyto otázky se snaží příspěvek najít odpovědi na základě paralelních korpusů. Literatura: Damborský, J. 1967. Participium l-ové ve slovanštině. Warszawa. (Rozprawy Uniwersytetu Warszawskiego 15) Giger, M. 2010. Příčestí minulé činné na -(v)ší v dnešních českých publicistických textech. Korpus - Gramatika - Axiologie 1, 2, 3-23. Izotov, A. I. 1993. Češskie atributivnye pričastija na fone russkich. Moskva Jediný kategoriální formální rozdíl – neexistence příčestí přítomného trpného na -m- v češtině – je vyvážen silnou produktivností nedokonavého příčestí „minulého“ trpného na -n/t- v češtině. Srov. k celé problematice Izotov (1993).
1
11
Kopečny, F. 1958. Přišedší, zahynuvší – přišlý, zahynulý (příspěvek k problému slovanského příčestí l-ového). In: Vinogradov, V. V. et al. (red.): Slavjanskaja filologija 2. Moskva, 138-163.
Valenční vlastnosti sloves označujících umístění v českém, ruském a německém jazyce Bohuslava Golčáková
[email protected]
Příspěvek je věnován výzkumu valenčních vlastností českých, ruských a německých sloves, který je prováděn na základě práce s korpusy zmiňovaných jazyků (SYN 2005 zpracovaný ÚČNK,Национальный корпус русского языка, korpusyěmeckého n jazyka zpracovávané Ústavem pro jazyk německý se sídlem v Mannheimu). Valenční syntax prošla od 60. let 20. století dlouhým vývojem, nicméně na své aktuálnosti neztrácí do současnosti. Již L. Tesniére přisuzoval ve svých Základech strukturální syntaxe (1959) hlavní roli ve větě slovesu a vyjádřil přesvědčení, že sloveso jako strukturální centrum věty otevírá ve větě volná místa, která musejí být pro vytvoření gramaticky správné věty obsazena. Počet a typ těchto míst závisí na situaci, která je slovesem pojmenovávána. V odborné literatuře se nejednou setkáme s názorem, že počet těchto pozic souvisí se sémantikou slovesa (srov. Tesnière 1959, Kacnel´son 1972, Apresjan 2006). Důkazem neutuchajícího zájmu lingvistů o danou problematiku v českém jazykovém prostředí je valenční slovník českých sloves VALLEX zpracovávaný kolektivem Ústavu formální a aplikované lingvistiky MFF UK pod vedením doc. M. Lopatkové a doc. Zd. Žabokrtského. Nutno zmínit, že jsou sestavovány valenční slovníky i v jiných jazycích. Nicméně konfrontační studie, které by se věnovaly valenci sloves v několika jazycích, nejsou příliš časté a pokud se objevují, zaměřují se většinou na porovnání valence sloves ve dvou (nikoli více) jazycích. Kromě toho se většina konfrontačních prací zabývá rozdíly na povrchové úrovni věty, tzn. rozdíly ve formálním (morfematickém) vyjádření jednotlivých slovesných doplnění bez ohledu na sémantické vlastnosti zkoumaných sloves. Cílem příspěvku je tedy seznámit s výsledky výzkumu valenčních vlastností sloves, konkrétně sloves označujících umístění v ruském, českém a německém jazyce. Výzkum se opírá o sémantickou klasifikaci vypracovanou kolektivem katedry ruského jazyka Uralské státní univerzity v Jekatěrinburgu. Teoreticko-metodologickou základnu výzkumu valence dané sémantické skupiny sloves tvořily práce ruských, českých i dalších lingvistů v oblasti funkční gramatiky, komunikativní gramatiky, valenční teorie a sémantiky. Výsledkem výzkumu je česko-rusko-německý valenční slovník obsahující 524 slovníkových hesel. Každé slovníkové heslo obsahuje kromě charakteristiky valenční struktury daného i příkladové věty získané excerpcí z výše uvedených korpusů. Výzkum byl prováděn v rámci doktorského studia na Filozofické fakultě Masarykovy univerzity (Ústav slavistiky) a následně pokračoval (a pokračuje) zpracováváním syntaktických (valenčních) vlastností ruských a českých sloves dalších sémantických skupin v rámci projektu FRVŠ řešeného v roce 2011 na Katedře germanistiky a slavistiky Fakulty filozofické ZČU v Plzni.
12
The frequency effect in the production of adjective-noun agreement: A corpus-based study of Russian speech errors Svetlana Gorokhova
[email protected] The paper aims to investigate the role of the frequency effect in computing grammatical agreement, which is traditionally regarded as an algorithmic process, through an analysis of 274 agreement errors (slips of the tongue) spontaneously produced by native speakers of Russian. The errors were collected by recording everyday conversations, telephone conversations, and live TV and radio programs. In Russian (a heavily inflected language), an attribute adjective case form is computed based on the head noun case form. At the same time, different case forms of a noun often use the same attribute adjective form. This may sometimes cause speakers to produce “reversed case agreement” errors in modifier-head [Adj+N] constructions, selecting an irrelevant head noun case form based on the relevant pre-modifier adjective case form while it is the reverse that has to be done, e.g. [TARGET] Govorit′ ob okončatel′n-YX resul′tat-AX rano → talk about final-PL.GEN/LOC result-PL.LOC early [ERROR]
Govorit′ ob okončatel′n-YX resul′tat-OV rano talk about final-PL.GEN/LOC result-PL.GEN early It is too early to talk about the final results.
It seems plausible to suggest that processing the adjective whose case inflection markers are homonymic, e.g. GEN/LOC as in the example above, the production system is faced with ambiguous information and has to choose one of the several alternative noun case forms, which may result in the selection of a wrong albeit perhaps more robust form (e.g. genitive instead of locative). I used the disambiguated part of the Russian National Corpus (about 6 mln. tokens) to compute the frequencies of occurrence of target and error modifier-head [Adj+N] constructions and compared the target and error construction frequencies. The comparison revealed that speakers tend to substitute higher-frequency constructions for lower-frequency constructions (p (274) < 0.001). The result suggests that even processes like agreement that have to be algorithmically computed are affected by the speakers’ implicit knowledge of the distributional patterns of certain grammatical constructions, which is based on their linguistic experience. The error construction is likely to be a recurrent pattern stored in long-term memory that a speaker tends to use as a default schema. In language production, such low-level schemas may have a priority over the general rules of computing agreement.
13
A corpus-based study of gender assignment in recent English loanwords Anne-Line Graedler
[email protected] This paper examines the gender of recently borrowed English nouns in Norwegian. Gender assignment is part of the morphological integration of borrowed nouns, and although English loanword gender has been dealt with in previous studies (e.g. Graedler 1998; Johansson & Graedler 2002), it is only during the past decade that large corpora of Norwegian have been made accessible for research, and thus enable comprehensive analyses of loanwords “based on large corpora of written and spoken [… language] in formal and informal settings from a variety of media” (Onysko 2007: 98). Grammars of Norwegian often view gender as a random lexical feature which is for the main part ”completely unpredictable” (e.g. Næss 2011: 126). On the other hand, several recent studies take a principled view of gender assignment as rule-based or dependent on inherent schemas (e.g. Trosterud 2001; Enger 2001; 2009; Halse 2004; Kristoffersen & Simonsen 2009). The gender assignment of loanwords may be regarded as natural test cases for hypotheses about productive gender and synchronous assignment rules, and thus contribute valuable information to the study of gender assignment principles in general, as well as with respect to loanwords in particular. Very few of the recent studies mentioned above are corpus-based, or use data from primarily contemporary sources. A recent study concludes that at least some aspects of the gender system of Norwegian seem to be in transition (Lødrup 2011), which again indicates that there may be good reason to look at the gender assignment of new anglicisms in order to capture some of the most recent trends in this area of grammar. The main source of data for the present study is the Norwegian Newspaper Corpus (http://avis.uib.no/). In addition to presenting data pertaining to gender assignment, the paper also briefly addresses methodological issues such as the suitability of corpora for loanword identification and extraction, and questions of size and representativeness. References Enger, H.-O. (2001). Genus i norsk bør granskes grundigere. Norsk Lingvistisk Tidsskrift 19, 163-183. Enger, H.-O. (2009). The role of core and non-core semantic rules in gender assignment. Lingua 119, 1281-1299. Graedler, A.-L. (1998). Morphological, semantic and functional aspects of English lexical borrowings in Norwegian. Oslo: Scandinavian University Press. Halse, G.E. (2004). Genustilordning i nynorsk: Ei datamaskinell etterprøving. MA thesis, University of Bergen. Johansson, S. & Graedler, A.-L. (2002). Rocka, hipt og snacksy: Om engelsk i norsk språk og samfunn. Kristiansand: Høyskoleforlaget. Kristoffersen, K.E. & Simonsen, H. G. (2009). Tilegnelse av genus hos norske, danske og islandske barn. Presentation of a research project, Cognitive summer seminar, Hamar, June 2009. Lødrup, Helge. 2011. Hvor mange genus er det i Oslo-dialekten? Maal og Minne 2, 120-36. Næss, Å. (2011). Global grammatikk: språktypologi for språklærere. Oslo: Gyldendal akademisk. Onysko, A. (2007). Anglicisms in German: Borrowing, Lexical Productivity, and Written Codeswitching. Berlin, New York: De Gruyter. Trosterud, T. (2001). Genus i norsk er regelstyrt. Norsk Lingvistisk Tidsskrift 19, 29-58.
14
České evidenciální markery a jejich uplatnění v publicistických textech Milada Hirschová, Soňa Schneiderová
[email protected] Zkoumání evidenciálnosti se v posledních letech rozvíjí jednak jako „nová perspektiva“ zkoumání modality, jednak i kontrastivně, při srovnávání jednotlivých jazyků. Přehled českých evidenciálních markerů byl vytvořen v rámci české participace na výzkumném projektu DFG Funktionsweisen und Struktur evidenzieller Markierungen im Slavischen (ved. projektu prof. Björn Wiemer, Johannes-Gutenberg-Universität Mainz). Teoreticky se opírá o Plungjanovo (2001) vymezení sémantických oblastí (hodnot) uvnitř evidenciálnosti (percepční evidence vs. evidence založené na vyvozování + evidence opřené o sdělení) a o práci Aichenvaldové (2004). Čeština patří mezi jazyky, které vyjadřují evidenciálnost lexikálně, nejčastěji pomocí adverbiálních/částicových výrazů a pomocí syntaktických konstrukcí se slovesy smyslových vjemů a slovesy myšlení. Při průzkumu realizovaném v rámci zmíněného projektu se potvrdil předpoklad, že mluvčí ne vždy rozlišují mezi specifikací zdroje informace (evidence) a svým hodnocením stupně pravdivosti tvrzení (epistémický postoj), proto se další zkoumání obrátilo k publicistickým textům, u nichž je specifikace informačních zdrojů součástí diskursových předpokladů, resp. rysem spoluvytvářejícím textový typ. Analýza korpusových dat hodlá zjistit frekvenci, distribuci a preferenční výskyt jednotlivých evidenčních markerů a klade si za cíl stanovit jejich funkční užití v možných kontextech publicistického textu. S tím souvisí i popis míry vlivu jednotlivých aspektů evidence na vyjádření stupně validity, a tedy kvality informace.
Využití korpusů korespondence pro účely (nejen) slovotvorných analýz Zdeňka Hladká
[email protected] Příspěvek bude zaměřen na lingvistickou využitelnost malých specializovaných korpusů. Nejprve se pokusíme krátce odpovědět na otázku, zda má smysl takové korpusy vůbec vytvářet, a pokud ano, jaké postupy volit. Problematika bude konkretizována na příkladu několika korpusů soukromé korespondence vytvořených nebo připravovaných v Ústavu českého jazyka na FF MU v Brně (KSKdopisy – součást ČNK, KSKe-maily, Korpus přijaté a odeslané korespondence Bedřicha Smetany, Korpus soukromé korespondence 20. století). Dále se soustředíme na využitelnost korpusů korespondenčních textů pro lexikologickolexikografický výzkum. Stručně budou prezentovány dosavadní excerpční aktivity, lexikografické sondy i lexikologické analýzy opírající se o materiál KSKdopisy. Vzhledem k zaměření konference bude hlavní pozornost věnována několika tématům z oblasti slovotvorby, pro jejichž zkoumání je soukromá korespondence zvláště vhodným pramenem. Konkrétně hypokoristickým variantám rodných jmen a aktualizačnímu tvoření apelativ. Uvedeny budou výsledky slovotvorné a frekvenční analýzy 1000 různých hypokoristických obměn rodných jmen z KSKdopisy (reflektován bude významný podíl studentů FF MU na zpracování tohoto úkolu). Ve snaze o představení korespondenčních textů jako východiska pro relativně komplexní výzkum hypokoristik budou poznatky týkající se slovotvorby propojeny se sledováním pragmalingvistických aspektů odvoditelných ze zapojení hypokoristik do konkrétních textů. Poukážeme i na některé zajímavosti diachronní.
15
Jazyková kreativita textů soukromé korespondence v oblasti tvorby apelativ bude dokumentována jak na novotvarech opírajících se o produktivní slovotvorné modely, tak na novotvarech, které prezentují záměrnou snahu narušit systémová pravidla.
Automatická slovnědruhová desambiguace slova „to“ v ustálených větných výrazech Milena Hnátková
[email protected] Příspěvek se zabývá automatickou slovnědruhovou desambiguací poměrně frekventovaného užití slovního tvaru to v českých ustálených větných výrazech, zejména v mluvené češtině, a následně i problémem určení pádu v případě užití zájmena to ve větných frazémech. Forma „to“ je homonymní, výsledkem automatické morfologické analýzy tohoto slova je zájmeno ten jako neutrum v singuláru (PDNS1, například ve spojení: to se teprve ukáže, to je ale překvapení) nebo neutrum v akuzativu (PDNS4, například ve spojení: kdo to má vydržet, já to říkám pořád) a částice to (TT, například ve spojení: to pěkně děkuju, to to trvá, to budeš koukat). Rozpoznat pád v českém textu počítačovým programem v případě homonymního tvaru akuzativu (nepředložkového) a nominativu je obtížné. Autor se zaměří především na desambiguaci slova to jako částice. Vyhledávací procedura ustálených slovních spojení je součástí automatické morfologické desambiguace, kdy je řešena zejména slovnědruhová desambiguace v negramatických spojeních a frazémech. Autor se v příspěvku konkrétně zaměří na ustálená spojení uvedená ve Slovníku české frazeologie a idiomatiky (část Výrazy větné) a na základě automatického vyhledávání větných ustálených spojení v českých textech v korpusu SYN2010: a) představí typy větných výrazů obsahujících slovo to b) dle úspěšnosti dosavadního automatického značkování ukáže příklady, kdy automatická desambiguace pomocí obecných gramatických pravidel není spolehlivá a jedná se převážně o užití frazému. c) pokusí se vytvořit seznam netranzitivních sloves (bez akuzativní valence) pro potřeby automatické desambiguace
Se vám to nelíbí? „Jambické“ začátky českých výpovědí / dialogických replik: v mluvené češtině a beletristické stylizaci Jana Hoffmannová, Ivana Kolářová
[email protected],
[email protected] Při stylizaci spontánního, nepřipraveného, expresivního mluveného projevu v současných uměleckých textech (prozaických, dramatických, ale i např. v komiksech) vystupují do popředí jako jeden z nejvýraznějších syntaktických rysů „jambické“ začátky výpovědí, resp. replik jednoslabičnými slovy se, si, sem, sme, ste, mě, mi, tě, ti, bych, by… Sgall a Hronek (1992) je označují jako příklonky, resp. předklonky; podle J. Tomana (2002) či A. Svobody (2002) nejde o klitika, všichni zmínění autoři tu však uvažují o výsledcích slovosledné inverze (Se mu to nepovedlo = „Nepovedlo se mu to“) nebo procesů eliptických (Bych si taky myslel = „To bych si taky myslel“). Ve hře jsou však zřejmě i další motivace, např. fonetické, související se specifickými technikami mluveného projevu. Za pozornost stojí i vztah elize/nevyjádřenosti u
16
já byl doma – sem byl doma; nebo homonymie počátkového si, které může být jak zvratným zájmenem (si nemysli), tak tvarem slovesa být (si jí to řekla?). Častý je tento typ začátků podle našich výzkumů např. i v komunikaci mladých lidí na chatu, tj. v psaných textech silně ovlivněných projevy mluvenými. Rády bychom s pomocí korpusů mluvené češtiny zjistily, zda tyto „jambické“ začátky výpovědí / replik představují výrazný a neodlučitelný znak současné mluvené češtiny, autentických českých dialogů – nebo zda jde spíše o určitý mýtus, vydatně živený českými beletristy, kteří usilují o stylizaci ležérního vyjadřování. K tomuto účelu využijeme i data z beletristických textů obsažených v ČNK (SYN2000, SYN2005, SYN2010) a zaměříme se na dialogy postav.
Osobní a přivlastňovací zájmena v češtině pro cizince: komplexnost a simplifikace v zrcadle současného úzu Andrea Hudousková
[email protected] Studenti se již v počáteční fázi studia češtiny jako cizího jazyka setkávají s deklinačními paradigmaty osobních a přivlastňovacích zájmen, která se vyznačují velkou tvarovou variabilitou. Příspěvek se zaměří jednak na variantní tvary osobních zájmen on, ono v genitivu a akuzativu, jednak na konkurenci adjektivních a zájmenných tvarů přivlastňovacích zájmen. Jednotlivé učebnice češtiny pro cizince se v popisu deklinace těchto zájmen výrazně liší: na krajních pólech pomyslné škály stojí na jedné straně Čeština pro pokročilé (2008) autorek Confortiové a Turzíkové, na straně druhé Česky krok za krokem II. (2009) od Holé a Bořilové, ostatní učební materiály lze z tohoto hlediska klást mezi ně. Co se týče deklinace osobních zájmen on/ono, uvádějí Confortiová – Turzíková veškeré jejich tvary, včetně těch, které jsou dnes již řídké a mají příznak knižnosti, tj. akuzativní tvary jej (ak. sg. m. neživ./n.) a je (ak. sg. n.). Přitom důsledně rozlišují mezi životným a neživotným maskulinem on: tzn. mezi akuzativními tvary ho/jeho/na něho (m. živ.) a jej/jej/na něj (m. neživ.). Naopak Holá – Bořilová mezi zájmeny on a ono, podobně jako mezi životnými a neživotnými tvary zájmena on nerozlišují a pro akuzativ i genitiv těchto zájmen uvádějí tvary ho/něho, něj (s poznámkou, že něho v akuzativu je tvar maskulina životného). Různá míra konzervatismu se projevuje i v popisu přivlastňovacích zájmen. Zatímco Confortiová – Turzíková připouštějí dubletní adjektivní a zájmenné tvary pouze v nom./ak. sg./pl., Holá – Bořilová uvádějí, podobně jako současné mluvnice češtiny, dublety pro celý singulár feminina, nom/ak sg. n. a nom/ak pl. všech rodů. Navíc upozorňují na obecněčeské varianty s hláskovými změnami é/ý, ý/ej a také obecněčeské zakončení instr. pl. -ma. Cílem příspěvku je na základě korpusového výzkumu zjistit následující údaje: 1) míru rozlišování rodu, životnosti a pádu (ak/gen) u osobních zájmen on/ono v současném psaném a mluveném úzu, konkrétně: a) četnost a distribuci jednotlivých dubletních forem; b) míru rozlišování životnosti u akuzativních tvarů jeho, jej / něho, něj; c) poměr výskytu akuzativních tvarů ho, je, jej, jeho / něho, něj zájmena ono; 2) poměr výskytu dublet přivlastňovacích zájmen v přímých a nepřímých pádech. Ze zjištěných faktů budou v závěru příspěvku vyvozeny důsledky pro způsob prezentace zmíněných deklinačních paradigmat ve výuce češtiny pro cizince. Je žádoucí, aby si studenti aktivně osvojili tvary časté a progresivní. Toho lze dosáhnout pouze na základě důkladného popisu současného úzu.
17
Research on stressed prepositions in Russian: a corpus-based approach Ilya B. Itkin, Svetlana I. Pereverzeva, Margarita A. Tyurenkova
[email protected],
[email protected],
[email protected] The paper relates to the study of collocations of the type “stressed preposition + noun” (SPN-collocations) in Russian. This study aims at describing the dynamics of occurrence of such collocations in the Russian language from the 18th century up to the present, as well as establishing the most significant grammatical tendencies in their usage. The research is based on data of 2 types: some examples are taken from the Russian National Corpus (RNC, www.ruscorpora.ru), others are selected from elsewhere. The latter allow us to estimate the adequacy of the RNC in reflecting a real linguistic situation regarding Russian stressed prepositions. The RNC is a complex system of sub-corpora. Our research is based on one of them – the Accentological Corpus (AC). Particularly, the AC data prove to be extremely helpful for describing the historical development of the 2 grammatically nontrivial groups of SPNcollocations. One group embraces collocations with nouns denoting living creatures in form of the old “inanimate accusative” case (cf. на' люди, на' конь, конь о' конь). As there was no “animate accusative” in Early Old Russian, these collocations should evidentially be more frequent in older texts. However, the AC shows that they occur not only in the 18th and 19th centuries, but also in the 20th century; as for the collocation на' люди 'in the public eye', it becomes widely spread no earlier than in the beginning of the 20th century. The other group includes SPN-collocations with nouns in form of the so-called “second genitive” case (this case is possible only for some masculine nouns and requires the u ending instead of the typical -a), cf. и'з лесу, о'т роду, со' смеху. The corresponding collocations with the typical “first genitive” also exist in Russian, but generally their stressed component is the noun: из ле'са, от ро'да, со сме'ха. Studying the AC data proves that the restriction on using the SPN-collocations with “first genitive” is presently stronger than it used to be in the 18th and early 19th century. The AC may help to find the SPN-collocations that are missed in the Modern Russian dictionaries. E.g., the preposition на in на спор is unstressed according to the dictionaries, whereas the AC shows that it can be stressed. On the other hand, the AC data sometimes give false impression of the real linguistic situation. E.g., for the collocation до дому the AC provides 5 examples with stress on до out of total 38. This may cause to think that the stress on the preposition in this collocation is rather rare, which is not correct.
Nové možnosti korpusového výzkumu českých performativních direktivních a závazkově-direktivních sloves Andrey Izotov
[email protected] Referát je věnován novým možnostem korpusového výzkumu českých performativních direktivních a závazkově-direktivních (podle mainstreamové Searlovy klasifikace) sloves vzniklých díky rozvoji českého národního korpusu během posledního desetiletí a navazuje na referát z loňské konference „Čeština v pohledu synchronním a diachronním“ (1.–3. června 2011, ÚJČ).
18
Konstrukce s performativními direktivními slovesy a konstrukce s imperativem tvoří v současné češtině centrum funkčně-sémantické kategorie výzvy, která je chápána jako souhrn subkategorií tvořených na základě aktantního rámce predikátu, přičemž nejdůležitějšími jsou tři subkategorie tvořené na základě následujících tří kategoriálních situací: Subkategorie 1. – preskriptorem je mluvčí, konatelem je posluchač/posluchači („výzva 2. osoby“); Subkategorie 2. – preskriptorem je mluvčí, konatelem jsou posluchač/posluchači a mluvčí („inkluzívní výzva“); Subkategorie 3. – preskriptorem je mluvčí, konatelem není posluchač ani mluvčí („výzva 3. osoby“). Jádro každé z těchto tří subkategorií je tvořeno konstrukcemi s imperativem, které jsou konvencializovány pro vyjádření ilokučně univerzální výzvy a explicitními performativními konstrukcemi s ilokučními slovesy, které jsou konvencializovány pro vyjádření ilokučně specializované výzvy. Jádro první subkategorie je zároveň jádrem celé funkčně-sémantické kategorie výzvy. Explicitní performativní konstrukce mají v současné češtině výchozí strukturu souvětnou: performativně užitý prézentní tvar 1. osoby indikativu ilokučního slovesa tvoří hlavní větu, kdyžto propoziční obsah výpovědi je ztvárněn formou věty vedlejší, srov.: Proto vás prosím, abyste odešli (SYN2010). K tvoření takových performativních konstrukcích jsou teoreticky uživatelná následující direktivní a závazkově direktivní slovesa: doporučovat; dovolovat; hlásit se; nabádat; nabízet; napomínat; nařizovat; navrhovat; objednávat; obsílat; odporučovat; poroučet; pověřovat; požadovat; prosit; přihlašovat se; přikazovat; přimlouvat se; připomínat; ptát se; radit; rozkazovat; schvalovat; tázat se; ukládat; upozorňovat; varovat; velet; volat; vybízet; vyprošovat si; vyzývat; zakazovat; zaklínat; zamlouvat si; zapovídat; zapřísahat; zvát; žádat. Pro vyhledávaní základních typů explicitních performativních konstrukcí v SYN jsme využili následujících dotazů (je samozřejmé, že v 1. pozici dotazu jsme vystřídali všechna zkoušená performativní slovesa, nikoliv jenom sloveso "doporučit"): Pro vyhledání výzvy 2. osoby [word="[Dd]oporučuj[iu]"] []{0,10} [word="abyste"] within <s> [word="[Dd]oporučuj[iu]"] []{0,10} [word="abys"] within <s> [word="[Dd]oporučuj[iu]"] []{0,10} [word="aby"][]{0,10} [word="ses"] within <s> [word="[Dd]oporučuj[iu]"] []{0,10} [word="aby"][]{0,10} [word="sis"] within <s> Pro vyhledání inkluzívní výzvy: [word="[Dd]oporučuj[iu]"] []{0,10} [word="abychom"] within <s> [word="[Dd]oporučuj[iu]"] []{0,10} [word="abysme"] within <s> Pro vyhledání výzvy 3. osoby: [word="[Dd]oporučuj[iu]"] []{0,10} [word="aby"] within <s> Nalezené kontexty byly podrobeny vizuální kontrole pro rozlišení performativního a neperformativního užití. Vypadá na to, že korpus je vhodný pro vyhledání právě základních typů explicitních performativních konstrukcí, protože takové vyhledání se dá formalizovat lépe, než vyhledání performativních konstrukcí s transformovanou diktumní nebo modisní částí. Vyhledávání transformovaných performativních konstrukcí v korpusu je složitější a vyžaduje náročnější vizuální kontrolu, je však také možné.
19
Porovnání funkčních stylů v korpusu SYN2005 na základě frekvence syntaktických funkcí substantiv Tomáš Jelínek
[email protected] Autor v příspěvku představí metodu automatické povrchově syntaktické anotace korpusu: kombinace stochastického parsingu a pravidly řízené opravy chybných struktur. Dále autor představí srovnání funkčních stylů v korpusu SYN2005 podle frekvence syntaktických funkcí a jejich realizací pády substantiv. Analyzovány budou subkorpusy beletrie (BEL), odborné literatury (ODB) a publicistiky (PUB). Kromě celých subkorpusů budou do srovnání zařazeny také zvláštní subkorpusy, které obsahují pouze „centrální“ složky žánrových subkorpusů: romány, novely a povídky v BEL (ne např. literatura faktu); „vědeckonaučná“ literatura v ODB (ne např. populárněnaučná literatura); novinové texty celostátně publikovaných deníků v PUB (ne časopisy nebo magazíny). Autor srovná jednak celkové frekvence syntaktických funkcí substantiv ve zkoumaných subkorpusech, jednak ukáže rozdíly mezi funkčními styly na rozboru několika zajímavých dílčích jevů. Podle očekávání se největší rozdíly ukazují mezi subkorpusem BEL a subkorpusem ODB (a zvlášť pak mezi jejich „jádrovými“ částmi). Z hlediska celkové frekvence syntaktických funkcí substantiv je např. v BEL nejčastější funkce předmětná, zatímco v ODB (a také v PUB) je nejčastější funkce přívlastková. Mezi dílčí jevy, na kterých budou představeny další rozdíly mezi „žánry“, patří poměr nominativu a instrumentálu u substantiv ve funkci jmenné části verbonominálního predikátu; frekvence jednotlivých podtypů genitivního přívlastku (kvantifikace, přívlastek u deverbativ aj.); podíl prostého instrumentálu ve funkci „původce děje“ a další. Autor chce příspěvkem mimo jiné ukázat, že ačkoli není automatická povrchově syntaktická anotace korpusu dosud zcela spolehlivá, i v současném stavu poskytuje mnoho zajímavých informací o zkoumaném textu.
K výslovnosti slova management (na základě dokladů v korpusu DIALOG) Lucie Jílková
[email protected] Příspěvek se zabývá výslovnostními variantami slova management, zkoumá výhradně jeho zvukové realizace. Výraz management lze považovat za pravopisně neintegrovanou výpůjčku v češtině (Nekula – Skalka, 2002). Internetová příručka Ústavu pro jazyk český AV ČR, v. v. i., uvádí u tohoto výrazu hned trojí možnou výslovnost: [menydžment; menedžment; manadžment]. S využitím dokladů z korpusu DIALOG, tedy multimediálního korpusu televizních diskusních pořadů, příspěvek ukazuje, k jaké z nabízených výslovnostních variant se mluvčí nejčastěji přiklánějí, případně realizují-li ještě nějaké varianty další. Ve zkoumaném materiálu se vyskytuje rovněž výslovnost [menežment], tedy výslovnost oproti variantám doporučovaným mírně zjednodušená. K tomuto zjednodušení zřejmě dochází pod vlivem výslovnosti slova manažer [manažer], které se již pravopisně do češtiny integrovalo; může se však jednat také o výslovnost méně pečlivou (k tomu viz i Obrtelová, 1992). Kromě údajů statistických je pozornost věnována rovněž aspektům stylistickým a sociolingvistickým: výskytu dvou či více různých výslovnostních variant v rámci jednoho televizního pořadu, svázanosti jisté výslovnostní varianty s konkrétním mluvčím a konečně možnostem vzájemné
20
akomodace mluvčích (např. moderátor ve své otázce užije jednu z možných výslovnostních variant a host ve studiu tuto variantu přijme, nebo naopak užívá varianty jiné). Nekula, M. – Skalka, B. (2002) Výpůjčka (přejímka), Encyklopedický slovník češtiny, Lidové noviny, Praha Obrtelová, N. (1992) Manažering? Management!, Naše řeč, 75, s. 53-54 http://prirucka.ujc.cas.cz/ http://ujc.dialogy.cz/
Česká substantivní deminutiva ve světle korpusových dat Tomáš Káňa
[email protected] Popis českých deminutiv, jejich funkce, inflace a lexikalizace je v bohemistice velmi populární a zdá se, že snad i nevyčerpatelné téma. Zmínku o nich najdeme ve všech gramatikách češtiny - od těch prvních (Nudožerský, Rose) až po současné (např. Karlík/ Nekula/ Rusínová). Tomuto typickému zástupci onomasiologické kategorie modifikace je věnován také dostatek místa i ve stěžejním díle M. Dokulila:Tvoření slov v češtině. V úvod do této kapitoly, již napsal L. Doležel, je zmíněn nedostatek, jehož si autoři tohoto přelomového díly byli vědomi, ovšem tehdejší technika jim jinou možnost nenabízela: „...práce vychází z matriálů slovníků (nikoliv rozboru textů)... Je však žádoucí v budoucnosti tento rozbor doplnit rozborem frekvenčním, který bude ovšem vyžadovat pracné zjištění výskytu deminutiv v promluvách.“ (Dokulil: Tvoření slov v češtině 2. Praha, 1967, s. 495.) Dnes, přesně padesát let po vydání Teorie odvozování slov a pětačtyřicet let po vydání aplikace Teorie (Odvozování podstatných jmen), jsou technické možnosti úplně jiné. Vzhledem k dostatečnému množství dat a rychlým korpusovým manažerům již není onen frekvenční rozbor deminutiv v promluvách dokonce ani tak pracný. Navíc můžeme díky paralelním korpusům efektivně porovnávat výskyty deminutiv českých s ekvivalentními pasážemi v jiných jazycích. Pokusíme se tedy pomalu zaplňovat neznámé v oblasti českých kontextově zapojených deminutiv a jejich protějšků v jiných jazycích: v tomto příspěvku se stručně zmíníme o metodologii postupu práce, vymezení deminutiva jako pragmatického jazykového jevu, deliminaci lexikalizovaných deminutiv a porovnáme nejfrekventovanější česká deminutiva (podle Frekvenčního slovníku a na základě dat ČNK a InterCorpu) s tvary, které jim odpovídají v některých jiných jazycích.
Postponovaný prívlastok v slovenčine a v češtine Agáta Karčová
[email protected] Slovosled vety v slovenčine je vysoko variabilný. Prevládajúca flektívnosť v systéme slovenčiny, intenčné zameranie slovesa a iné faktory umožňujú takmer ľubovoľné radenie plnovýznamových vetných členov bez straty významu vety. Za inverziu podľa J. Mistríka môžeme pokladať len zmenu slovosledu tých častí vety, ktoré majú ustálený alebo obvyklý, gramaticky určený slovosled. Najrozšírenejším typom inverzie je postpozícia holého zhodného prívlastku, ktorý sa nachádza za nadradeným substantívnym výrazom. Toto poradie je v slovenčine typické pre odbornú terminológiu (predovšetkým nomenklatúru častí fauny a
21
flóry), pričom prívlastok odlišuje jednotlivé druhy rovnakého rodu. V umeleckom štýle je charakteristický hlavne pre básnické diela. V období etablovania sa slovenčiny a jej kodifikácie bol postponovaný prívlastok v podstate súčasťou syntaktickej normy, aj keď už vtedy bol viazaný len na vybrané funkčné štýly. Prejavuje sa to tiež v poézii štúrovcov, kde je výskyt postponovaného atribútu častým javom. V dielach súčasných poetov sa zhodný prívlastok v inverznom slovoslede stáva špecifickým básnickým prostriedkom. Cieľom nášho výskumu bolo zistiť, či sa postpozícia holého zhodného prívlastku v slovenčine viaže výlučne na umelecký štýl a odbornú nomenklatúru. Dôležitou súčasťou výskumu bolo určovanie, aká je motivácia alebo komplex pohnútok na využitie inverzného slovosledu zhodného atribútu a nadradeného substantívneho výrazu a akú funkciu má v rôznych typoch prejavov. Zamerali sme sa nielen na písané texty z dostupných zdrojov (predovšetkým Slovenský národný korpus a internetové prehliadače), ale aj na hovorené prejavy (ako bázu na výskum sme využili 3. verziu Slovenského hovoreného korpusu). Frekvenčnú distribúciu postponovaného jednoduchého atribútu v jednotlivých zdrojoch slovenských komunikátov sme porovnali s distribúciou v českých písaných textoch aj prepisoch hovorených prejavov.
Osobní zájmena: ověřování hypotéz daty (intuice > KORPUS > dotazník) Petr Karlík, Markéta Ziková a studenti MU
[email protected] Východiskem referátu bude představení analýzy vnitřní struktury českých osobních zájmen, kterou M. Ziková a P. Karlík vypracovali v teoretickém rámci geometrie rysů (Harley(ová) & Ritter(ová), 2002, a ukázání predikcí, které tato analýza vytváří, přičemž se soustředíme na distribuci krátkých a dlouhých tvarů osobních zájmen. Cílem referátu bude pak empiricky ověřit hypotézy plynoucí z toho, že dlouhá osobní zájmena mají více struktury než krátká osobní zájmena, tj. že dlouhé tvary jsou více specifikované než tvary krátké. Z toho vyplývá, že: zájmena osobní. = {{klitická {silná}}}, a podle Elsewhere Condition platí: (i) krátká forma je možná, pokud není možná dlouhá forma DL:ne → KR:ano (ii) krátká forma je vyloučena, když je nutná dlouhá forma DL:ano → KR:ne V referátu se soustředíme na ověření této predikce pro zájmena 3. os.: Dlouhé tvary jeho, jemu jsou vybaveny jednak φ-rysy (které realizuje sufix -ho a -mu), jednak rysem [human], který realizuje je-, a jejich referentem může být tedy pouze osoba (a domestifikované zvíře?), zatímco krátké tvary ho, mu jsou vybaveny pouze φ-rysy, a tedy požadavkem na jejich referent je pouze to, že má φ -rysy [Mask./Neutr., Sg.]: dotkl se ho (Petra / dítěte / pejska / telete/ stolu / těsta) × dotkl se jeho (Petra / dítěte / ?pejska / ?telete / *stolu / *těsta). Ukážeme, zda tuto predikci potvrdily korpusové nálezy, a srovnáme je s výsledky, k nimž jsme dospěli na základě dotazníku.
22
Mosty mezi větami. Korpusová analýza neprojektivních konstrukcí s tzv. bridge verbs Jan Klaška
[email protected] Ve svém příspěvku se budu zabývat tématem, kterému česká jazykověda věnovala jen okrajovou pozornost, totiž jednomu z typů tzv. neprojektivních konstrukcí. Ty jsou zejména v přístupech vycházejících z funkčního generativního popisu označovány jako neprojektivní konstrukce s tzv. bridge verbs, v českém prostředí se můžeme setkat i s označením neprojektivní konstrukce s extrakcí, či zkřížená souvětí. Protože se v dosavadní literatuře věnovala neprojektivním konstrukcím s bridge verbs v češtině jen malá pozornost, vychází příspěvek zejména z analýzy materiálu z Českého národního korpusu, a to nejen z korpusu SYN, který bývá při výzkumu založeném na korpusových datech tradičně používán, ale také z tzv. korpusů mluvených. Ty, i když jsou malé a nereprezentativní, považuji pro danou problematiku za zdroj rovnocenný reprezentativnímu korpusu SYN (konstrukce jsou považovány za hovorové a mají stát na periferii českého syntaktického systému). Příspěvek se věnuje analýze a popisu neprojektivních konstrukcí s bridge verbs. I když je zřejmé, že výzkum korpusu nemůže přinést seznam všech bridge verbs v češtině, snažím se zachytit co nejvíce sloves s takovou schopností. Zajímá mě také to, zda existují v rámci bridge verbs nějaká omezení, která zabrání extrakci/posunu. Stejně jako v případě samotných bridge verbs je cílem příspěvku popsat tato omezení také v případě celých konstrukcí a elementů, které jsou extrahovány. Obecně mě tedy zajímá to, jakou podobu může mít neprojektivní konstrukce, jaká slovesa či struktury mají vlastnosti bridge verbs a „co“, za jakých podmínek (či omezení) a „kam“ se může extrahovat/posunout. Příspěvek, který si dovoluji označit za korpusový, vychází z analýzy korpusových dat, která byla získána nejprve obecnějšími (avšak spolehlivými) dotazy a poté tzv. ručním procházením a tříděním cca 15 tisíc dokladů.
Slovesa vyjadřující procesy spojené s místem tvořená sufixem -i(hnízdit, tábořit) a kombinovaným formantem ´prefix + -i-´ (zalesnit, podsklepit) Ivana Kolářová
[email protected] Pozornost věnujeme desubstantivním slovesům odvozeným sufixem -i- nebo kombinovaným formantem – cirkumfixem ´prefix + -i-´: – od substantivních názvů míst, tj. slovesům s významem ´být na daném místě´ nebo ´vykonávat činnost na daném místě´, ´držet někoho/něco na daném místě´, např.: hnízdit, tábořit, věznit…; podsklepit; – od substantivních názvů jiných jevů, resp. slovesům, která význam činnosti spojené s místem často pouze implikují: oplotit, zalednit, zastřešit. Předchozím zkoumáním v korpusech SYN2000, SYN2005 a SYN2006PUB byl zjištěn poměrně malý počet sloves s těmito významy odvozených pouze sufixem -i- a o něco vyšší počet sloves tvořených cirkumfixy, která význam činnosti spojené s určitým místem často pouze implikují. Cílem výzkumu pro tento referát bude:
23
– zjistit detailní korpusovou analýzou počet a frekvenci sloves tvořených uvedenými slovotvornými formanty doložených v současném korpusu SYN, srovnat počet a frekvenci sloves odvozených pouze sufixem -i- a jednotlivými cirkumfixy a zvážit skutečnou produktivitu těchto slovotvorných typů v současné češtině; – srovnat význam sloves tvořených sufixem -i- a sloves tvořených cirkumfixy včetně vztahu významu základového substantiva a odvozeného slovesa a vlivu významu základového substantiva a konkrétních cirkumfixů na význam jednotlivých slovotvorných typů; – srovnání výskytu jednotlivých slovotvorných typů v textech různých stylových oblastí, stylové hodnocení kontextu, v němž jsou slovesa užita; zvážení stylové hodnoty konkrétních sloves.
Nominalizované struktury se dvěma genitivy ve funkci aktantů Veronika Kolářová
[email protected] Tradičně bývají za jedinou možnou nominalizovanou strukturu (NS) se dvěma aktanty (A1 a A2) vyjádřenými pomocí bezpředložkového genitivu (GenAdnom) považovány takové NS, jimž odpovídá základová větná struktura (ZVS), v níž je jedna pozice s Gen pozicí valenční. Jako příklady jsou uváděny pouze struktury S1, v nichž A1 (GenAdnom ← Ak) a A2 (GenAdnom ← GenAdverb), např. zbavení ženy starostí. Naopak struktury S2, v nichž A1 (GenAdnom ← Nom) a A2 (GenAdnom ← Ak), např. zkoušení Petra Evy, jsou považovány za negramatické. Tento příspěvek přináší doklady (ze subkorpusů ČNK) o dalších typech NS, v nichž jsou dva aktanty vyjádřeny pomocí GenAdnom: (I) Struktury S3, v nichž A1 (GenAdnom ← Nom) a A2 (GenAdnom ← GenAdverb), např. domáhání se Ireny Riškové „svých“ peněz. Struktury S3 lze dále dělit na struktury S3A s „plnovýznamovým“ substantivem, např. dožití dítěte konce pojistné doby, dotyk puku plzeňského útočníka, a struktury S3B, v nichž A2 (GenAdnom ← GenAdverb) spolu s rozvíjeným substantivem (N) tvoří nominalizaci nějakého víceslovného predikátu (zejm. analytických predikátů, fázových predikátů a přechodných typů), např. ujímání se vlády ČSOB v impériu IPB (← ČSOB se ujímá vlády), zanechání činnosti řady klíčových hráčů (← hráči zanechali činnosti), zdržení se protiprávního jednání Českých aerolinií (← ČSA se zdrží … jednání), vzdávání se odpovědnosti státu za starší spoluobčany (← stát se vzdává odpovědnosti). Některá ze substantiv užívaných v S3B jsou se dvěma GenAdnom doložena i při plnovýznamovém užití, srov. zbavování se radnice nepohodlných zaměstnanců. (II) Struktury S2B (obdoba S2, výše označených za negramatické), v nichž však A2 (GenAdnom ← Ak) spolu s N tvoří nominalizaci nějakého víceslovného predikátu, např. vzdání holdu mafiánů svému kmotrovi, poskytování informací společnosti zájemcům o privatizaci. U NS, jejichž ZVS je víceslovný predikát (tj. S3B a S2B, např. zaměstnanec pozbyl způsobilosti vykonávat práci), nelze porušit koreferenci konatelů N a A2 (neboli konatelem N nemůže být nikdo jiný než A1, srov. *zaměstnavatelovo pozbytí.N způsobilosti.A2 zaměstnance.A1 vykonávat…). Případná analýza daných NS uplatňující postupné rozvíjení substantiv (např. pozbytí {[způsobilosti zaměstnance] vykonávat práci}) neodpovídá jejich ZVS, případně odpovídá jiné ZVS (mění se význam konstrukce). Doklady s pořadím aktantů A1 A2 mluví jednoznačně ve prospěch analýzy N rozvitého dvěma GenAdnom (pro S3B srov. zřeknutí se Bohemians možnosti odvolání).
24
Measuring Standard German? Frequency and Variance as Indicators for Acceptability: With Examples from Morphology and Syntax of German Connectors Marek Konopka, Ulrich Hermann Waßner
[email protected],
[email protected] The frequency of grammatical phenomena in corpora is not always in direct proportion to its acceptability (e.g., Conrad 2010). Provided differentiated corpora and careful reflection are given, it can, however, be used as an aid to assess the degree to which a phenomenon suits standard language. In a first step, the frequency of one grammatical phenomenon and its variance across corpus sections can be studied. This can, on the one hand, indicate that the phenomenon belongs either (1) to a general standard (e.g., the adverb connector sonst ‘otherwise’) or (2) to a regional or otherwise defined specific standard (e.g., the primarily Austrian adverbial conjunction ansonst ‘otherwise’). On the other hand, the phenomenon can seem to be (3) synchronically standard-distant (e.g., the connector sonsten). Often, the frequency and the variance of the particular grammatical phenomenon can be compared to those of competitive phenomena in a second step (as in the variation sonst/ansonsten/ansonst/sonsten). Comparing the frequencies and examining the phenomena’s specific distribution across corpus sections ensure the judgements about their belonging to the standard. Both methodical approaches are applied in the “Korpusgrammatik” (‘corpus grammar’), an IDS project, drawing on an overall corpus of four billion words together with a balanced part corpus of 20 million words. The paper introduces the methodology in detail and explains it by examples from morphology and syntax of connectors. Among the German negative-conditional connectors in the range of consequens markers (meaning otherwise), there are the prototypical cases sonst and ansonsten. Morphological alternatives (sonsten and ansonst) are rarely known today and missing in HDK-1 and HdG. However, corpora show that – although indeed rarely used – they actually occur with a considerable frequency (101 hits for sonsten and even 676 for ansonst in the GRC on 23 April 2012). The different forms relate to each other in a crosswise sense: The ratio of ansonsten to the shorter ansonst in the corpora is about 250:1, that of sonst to the longer sonsten even over 5.000:1. Furthermore, the connectors ansonst and ansonsten are used in two different syntactic manners: as a specific kind of subordinated conjunction (Postponierer ‘postponer’) or as a conjunctional adverb (Adverbkonnektor ‘adverbial connector’) that can occupy various positions within the sentence. Now, the differentiated IDS corpora allow us to reveal specific distributions of these two different ways of use. Their pattern of regional distribution is different to that with regard to the morphologic variation: ansonst (especially in Austria)
ansonsten (general standard)
as an adverbial connector
especially in Austria
general standard
as a postponer
especially in Switzerland
25
The paper will present the findings in greater detail, specify the results, and demonstrate how they are deduced from the IDS corpora. It will draw conclusions for assessing the acceptability and standard suitability of the forms additionally showing how the project uses statistical instruments to calculate the variance of phenomena (standard deviation SD, coefficient of variation VC, chi-square test, Juilland et al.’s D, Gries’s DPnorm, etc., cf. Gries 2008). References: Conrad, Susan (2010): What can a corpus tell us about grammar? In: O’Keeffe, Anne/McCarthy, Michael (eds.): The Routledge Handbook of Corpus Linguistics. London, New York: Routledge, pp. 227-240. GRC (German Reference Corpus): Institut für Deutsche Sprache (2012): Deutsches Referenzkorpus/Archiv der Korpora geschriebener Gegenwartssprache 2012-I (Release vom 29.02.2012). Mannheim: Institut für Deutsche Sprache. Gries, Stefan Thomas (2008): Dispersions and adjusted frequencies in corpora. In: International Journal of Corpus Linguistics 13, pp. 403-437. HdG: Kempcke, Günter et al. (1984): Handwörterbuch der deutschen Gegenwartssprache. In 2 Bänden. Berlin: Akademie. HDK-1: Pasch, Renate/Brauße, Ursula/Breindl, Eva/Waßner, Ulrich Hermann (2003): Handbuch der deutschen Konnektoren. Linguistische Grundlagen der Beschreibung und syntaktische Merkmale der deutschen Satzverknüpfer (Konjunktionen, Satzadverbien und Partikeln). Berlin/New York: de Gruyter. (Schriften des Instituts für Deutsche Sprache. 9.).
Ke tvoření posesivních adjektiv na -ův a -in v češtině Lucie Kopáčková
[email protected] Poster představí výsledky korpusového výzkumu tvoření posesivních adjektiv na -ův a -in v češtině. Zvláštní pozornost bude věnována tvarům typu výtvarničin manžel, kočův košiláček a hajnův kluk. Cílem výzkumu bude ukázat, zda jsou pravdivá tvrzení v českých gramatikách, že se v češtině posesivní adjektiva na -ův a -in od jmen těchto typů obvykle netvoří. Výzkum naváže na příspěvek L. Kopáčkové „Co říká o tvoření přídavných jmen individuálně přivlastňovacích od přechýlených ženských jmen na -yně/-kyně v češtině odborná literatura a Český národní korpus“ (v tisku) a bude prováděn v korpusech psaného i mluveného jazyka ČNK.
Vývoj slovosledných vlastností auxiliáru préterita ve starší češtině Pavel Kosek
[email protected] Příspěvek je zaměřen na výzkum vývoje slovosledných vlastností prézentních forem slovesa býti, které se během historického vývoje češtiny ustálily ve funkci auxiliáru českého perifrastického préterita.
26
Obvykle se předpokládá, že původně (tj. v praslovanštině) mělo spojení prézentních forem slovesa býti a l-ového participia platnost přísudku jmenného se sponou, jehož participium dodávalo danému přísudku rezultativní význam (Komárek 1981: 18; Lamprecht – Šlosar – Bauer 1986: 244). Později se tato rezultativní konstrukce proměnila ve složenou slovesnou formu s perfektivním významem, který je zachycen ve staroslověnštině (Večerka 2006: 191) a zčásti též ve staré češtině (Lamprecht – Šlosar – Bauer 1986: 244, Kvítková 1991). Ve staré češtině se toto perfektum mělo změnit v prostý minulý čas bez rezultativního významu – préteritum. Proces proměny „sponových” forem slovesa býti ve formy auxiliární měl být završen proměnou auxiliárních forem ve stálá enklitika. Pro vývoj českých enklitik je příznačná konkurence několika slovosledných konstelací (modelů): 1. postiniciální pozice – enklitikon je umístěno za první přízvučný člen klauze, 2. kontaktní pozice („verbálně adjacentní”) pozice – enklitikon je umístěno v bezprostřední blízkosti slova, s nímž je gramaticky spjato, 3. distantní pozice (enklitikon je umístěno uprostřed klauze bez kontaktu se slovem, s nimž je gramaticky spjato). Cílem příspěvku je prozkoumat vývoj slovosledných vlastností auxiliáru préterita: 1. s ohledem na jeho proměnu ve stálé enklitikon; 2. s ohledem na zmíněnou konkurenci tří slovosledných konstelací enklitika. Výzkum vychází z dat obsažených v diachronních korpusech češtiny (DIAKORP, Staročeská textová banka) a z autorova soukromého korpusu barokních textů. Výklad získaných dat je založen na zkoumání: 1. větných pozic, které auxiliár obsazuje, 2. jeho kombinatorních vlastností, jako jsou poloha vůči participiu, jeho poloha ve skupině enklitik či jeho spojitelnost s větným záporem. Literatura AVGUSTINOVA, Tania – OLIVA, Karel. 1997. On the Nature of the Wackernagel Position in Czech. In JUNGHANNS, U. – ZYBATOW, G. (eds.) Formale Slavistik, Frankfurt am Main: Vervuert Verlag, s. 25–47. FRANKS, Steven – KING, Tracy Holloway. 2000. A handbook of Slavic clitics. Oxford: Oxford University Press. FRANKS, Steven. Clitics in Slavic. In KEMPGEN, S. – KOSTA, P. – BERGER, T. – GUTSCHMIDT, K. (eds.) Die slavischen Sprachen. The Slavic Languages, Walter de Gruyter: Berlin – New York , s. 725–738. DOSTÁL, Antonín. 1967. Historická mluvnice česká II. Tvarosloví 2. Časování. Praha: SPN. GEBAUER, Jan. 1929. Historická mluvnice jazyka českého IV. Skladba. (ed. F. Trávníček). Praha: ČAVU. GIGER, Markus. 2006. Typ šel jest, šli sú v slovenčine a češtine 16.–18. stor. In NÁBĚLKOVÁ, M. (ed) Česko-slovenská súčasnosť a česká slovakistika, 7. Praha: FF UK, s. 189–201. HALPERN, Aaron. 1998. Clitics. In SPENCER, A. – ZWICKY, A. M. (eds.) The handbook of morphology. Oxford: Blackwell Publishers Ltd. FRIED, Mirjam. 1994. Second-position clitics in Czech: Syntactic or phonological? Lingua 94, s. 155–175. JUNGHANS, Uwe. 2002. Klitische Elemente im Tschechischen: eine kritische Bestandaunahme. In DAIBER, Th. (ed.) Linguistische Beiträge zur Slavistik IX. München, s. 117–150. KOMÁREK, Miroslav. 1981. Nástin morfologického vývoje českého jazyka. Praha: SPN. KOSEK, Pavel. 2009a. Word Order of the Pronominal Clitics in Non-finite Phrases in the Czech Baroque Language. In ZIKOVÁ, M. – DOČEKAL, M. (eds.), Czech in Formal Grammar, s. 115–130. München.
27
KOSEK, Pavel. 2009b. Wortstellung der pronominalen Klitika in der tschechischen Sprache der Barock-Periode. In LOUDOVÁ, K. – ŽÁKOVÁ, M. (eds.), Early European Languages in the Eyes of Modern Linguistics. Brno, s. 169–188. KVÍTKOVÁ, Naděžda. 1991. K užívání préterit ve staré češtině. Listy filologické, 114, s. 237–242. LAMPRECHT, Arnošt – ŠLOSAR, Dušan – BAUER, Jaroslav 1986. Historická mluvnice češtiny. Praha: SPN. LEŠNEROVÁ, Šárka. 2002. Postavení příklonky se v textu Kryštofa Haranta „Cesta z Království českého... do Země svaté...”. In HLADKÁ, Z. – KARLÍK, P. (eds.) Čeština – univerzália a specifika 4. Brno: MU, s. 325–327. MIGDALSKI, Krzysztof. 2009. On Two Types of Wackernagel Cliticization in Slavic. In REICH, J. – BABYONYSHEV, M. – KAVITSKAYA, D. (eds.). Formal Approaches to Slavic Linguistics: The Yale Meeting. Ann Arbor: Michigan Slavic Publications, s. 147–162. SGALL, Petr – HAJIČOVÁ, Eva – BURÁŇOVÁ, Eva. 1980. Aktuální členění věty v češtině. Praha : Academia. PANCHEVA, Roumyana. 2005. The rise and fall of second-position clitics. Natural Language and Linguistic Theory, 23, s. 103–167 SVOBODA, Aleš. 2000. Klitika z hlediska funkční větné perspektivy (I). In KARLÍK, P. – HLADKÁ, Z. (eds.), Čeština – univerzália a specifika 2, Brno: MU. s. 149–159. SVOBODA, Aleš. 2001. Klitika z hlediska funkční větné perspektivy (II). In KARLÍK, P. – HLADKÁ, Z. (eds.), Čeština – univerzália a specifika 3, Brno: MU. s. 149–159. ŠLOSAR, Dušan. 1967. Poloha enklitik jako kritérion k hodnocení staročeské interpunkce. Listy filologické 91. s. 251–258. TOMAN, Jindřich. 2004. Ertlova diskuse českých klitik. In HLADKÁ, Z. – KARLÍK, P. (eds.) Čeština – univerzália a specifika 5, Brno: MU. s. 73–79. TOMAN, Jindřich. 2000. Prosodické spekulace o klitikách v nekanonických pozicích. In HLADKÁ, Z. – KARLÍK, P. (eds.) Čeština – univerzália a specifika 2, Brno: MU. s. 161–166. UHLÍŘOVÁ, Ludmila. 1987. Knížka o slovosledu. Praha: Academia. VEČERKA, Radoslav. 1989. Altkirchenslavische (Altbulgarische) Syntax I, Die lineare Satzorganisation. Freiburg i. Br: Weiher. ZIKÁNOVÁ, Šárka. 2009. Postavení slovesného přísudku ve starší češtině (1500 – 1620). Praha: Karolinum.
Srovnávání nesrovnatelného Jan Králík
[email protected] Textové korpusy umožňují získat poměrně snadno také velké množství kvantitativních údajů, jejichž statistická přesnost je ve srovnání s dosud běžnými kvantitativními charakteristikami jazykových jevů několikanásobně vyšší. Jinde účinné statistické metody posuzování hypotéz o shodě, o výběrech z téhož základního souboru, o významnosti rozdílů atd. proto nelze aplikovat přímo. Rozdíly v rozsahu souborů, z nichž se nabízejí data ke srovnávání, dosahují i několika řádů. Je proto třeba ujasnit, jaké jevy lze a jaké jevy nelze srovnávat, zda a jak lze definovat hranice základních souborů a jak vůbec nahlížet na statistickou přesnost korpusových dat. K ilustraci budou předložena data o rozložení frekvencí fonémů a jejich dvojic, nově zjištěná ze dvou extrémně různě rozsáhlých souborů. Analýza
28
míry shod a rozdílů upozorní na překvapivou shodu v jiném aspektu těchto rozložení. Závěr se dotkne také zdánlivě jednoduchého problému srovnávání variant.
Adjektívno-substantívne kolokácie typu v plnom rozsahu Daniela Majchráková
[email protected] V príspevku sa zameriam na analýzu (predložkových) adjektívno-substantívnych kolokácií, pričom materiálovou bázou pre výskum týchto spojení bude kolokačná databáza obsahujúca kolokačné profily 250 substantív a dáta Slovenského národného korpusu. Jadrom analýzy budú ustálené spojenia s príslovkovou a časticovou platnosťou typu v blízkej budúcnosti, v dohľadnom čase, v najhoršom prípade, v plnej rýchlosti, k plnej spokojnosti, v širších súvislostiach, spoločnými silami, celou silou. Ide o lexikalizované, „anomálne“ spojenia slov, ktoré sú v porovnaní s voľnými, aktuálne vytvorenými spojeniami príznakové svojimi morfo-syntaktickými reštrikciami, ako aj štatistickou signifikantnosťou. V príspevku budeme na báze korpusových dát sledovať v akej miere a v akých podobách sa uplatňuje kritérium anomálnosti v prípade vybraných kolokácií: ich morfologické špecifiká, ďalej syntaktické preferencie súvisiace s ich vetnočlenskou funkciou, ich obmedzenú spájateľnosť, teda schopnosť viazať na seba konkrétnych lexikálnych partnerov, ako aj frekvenčné a štatistické charakteristiky. Týmito vlastnosťami sa dané kolokácie vymedzujú voči pravidelným kombináciám slov ako ustálené spojenia a svojou nefrazeologickou a neterminologickou povahou sa zaraďujú medzi lexikalizované spojenia.
Slovotvorné typy českých deverbativ a deadjektiv (diachronní pohled) František Martínek
[email protected] Příspěvek se zabývá slovotvornou stránkou dvou typů jmenných komponentů tzv. analytických verbonominálních spojení 2 – deverbálních a deadjektivních substantiv. Deverbativa přitom podle Radimského (2010: 61n.) rozděluje na verbální, tj. ta zakončená na -ní nebo -tí, a dějová (srov. také Kralčák 2005: 56n. a Stehlíková 2010). Prvním cílem příspěvku je klasifikace daných deverbativ a deadjektiv podle slovotvorných typů v diachronním pohledu. Přitom se ukazuje např. a) kontinuální vysoké zastoupení konverzních deverbativ (např. slib); b) klesající podíl spojení akčního slovesa obecného významu (typu konati) s deverbativy na -ní a deadjektivy na -ost v průběhu vývoje češtiny; 3 c) průběžné nahrazování konkretizovaných abstrakt, jež si současně ponechala i dějový význam, synonymy (psání/psaní ‚psaní‘ i ‚dopis‘). Druhým cílem příspěvku je kvalitativní a kvantitativní analýza, nakolik fungují vybraná polysémní deverbativa jako pojmenování děje a výsledku děje. V souvislosti s ní je podán orientační významový popis vybraných lexikalizovaných deverbativ, jež se významově vzdálila od fundujícího slovesa. Srov. Kralčák 2005, z českých badatelů týž jazykový jev analyzuje naposledy Radimský 2010 (s jiným pojmenováním jevu, viz titul jeho monografie). 3 Reprezentativní statistická data pro současnou češtinu uvádí Radimský (2010: 64–71). 2
29
Příspěvek vychází z jazykových dat dostupných v korpusech (ČNK Diakorp, Staročeská textová banka, Korpus českých humanistických textů, synchronní korpusy ČNK) i dat shromážděných a analyzovaných v monografiích (především Radimský 2010); jako srovnávací materiál využívá rovněž dostupné elektronické lexikální databáze (Nejedlý et al. 2010) a slovníkové zdroje (StčS, Jungmann 1834–1839). Literatura a zdroje: Český národní korpus. Ústav Českého národního korpusu FF UK, Praha. Dostupný z WWW: http://ucnk.ff.cuni.cz. 4 Jungmann, J.: Slovník česko-německý I–V. Praha: Knížecí arcibiskupská tiskárna, 1835–1839. Kralčák, Ľ.: Analytické verbo-nominálne spojenia v slovenčine: Synchrónno-diachrónny pohľad. Nitra: Univerzita Konštantína Filozofa, 2005. Nejedlý, P. et al.: Lexikální databáze humanistické a barokní češtiny. Oddělení vývoje jazyka ÚJČ AV ČR, v. v. i., Praha, 2010. Dostupná z WWW: http://madla.ujc.cas.cz. Radimský J.: Verbo-nominální predikát s kategoriálním slovesem. České Budějovice: Jihočeská univerzita, 2010. Staročeská textová banka. Oddělení vývoje jazyka ÚJČ AV ČR, v. v. i., Praha. Dostupná z WWW: http://vokabular.ujc.cas.cz. StčS: Staročeský slovník. Praha: Academia, 1968–2008. Stehlíková, Lucie: Morfosyntaktické vlastnosti deverbálních jmen na -ní/-tí. Disertační práce. Brno: FF MU, 2010.
I have friends come/coming over: The have construction seen through its Czech equivalents Michaela Martínková
[email protected] The English construction with have complemented by a noun phrase (NP) and a verb in the infinitive or the –ing form (the have construction) is in Quirk et al. (1985) ranked among the complex transitive complementation type with “coercive“ meaning and further considered alongside the “existential there”. The NP in the subject of what they call “the haveexistential” then can have “an affected role” (1985, 1412). Poldauf (1967, 26) explicitly states that the function of the have-construction is to introduce as subject “the one interested in what is further predicated”, and that it is equivalent to the Czech construction with the “nonattached dative” (Poldauf 1966, 250), recently analyzed as the Affected Possessor (AP) construction within the framework of Construction Grammar by Fried (2011). This presentation first ponders possible criteria (the type of the NP in the subject and complement of have, animacy of its head noun) helping to differentiate the possible causative and experiential readings this construction can have in a monolingual parsed corpus of present-day British English (ICE-GB), and then turns to a parallel translation corpus (InterCorp) to reveal ambiguity and vagueness through translation patterns (Johansson 2007, 57). A detailed analysis of the Czech equivalents of the have construction shows that a. the AP construction is much less frequent as an equivalent of the have construction with the infinitive, where the Czech causative verb predominates; Korpus českých humanistických textů o rozsahu přes 500 000 slovních tvarů se připravuje ke zveřejnění v diachronní složce ČNK. 4
30
b. if the possessum (PM) is a possessor’s (PR) body part, the AP construction predominates over a possessive pronoun, which evokes detachment from the PR. With alienable entities as PMs, possessive pronouns are more frequent than the AP construction; c. the AP construction is not used if the verb cannot be interpreted as affecting the PR in the context given, or if it is an argument of the Czech verb. A more expressive verb, however, often compensates for the lost affectedness, or a change in valence allows for the use of the AP construction; d. with human, i.e., non-prototypical PMs (Taylor 1995, 202), causative interpretations of have are at hand. Translations by causative verbs are the only option if the affectedness of the PM does not imply PR’s affectedness. If the PR can be interpreted as affected, translations both with the causative verb and the AP construction occur, suggesting perhaps that the causer is causing the event because he/she has some interest in it. e. Have as a mere linking verb introducing a secondary predication invites not only these causative interpretations, but also combinations with inanimate subjects. These are translated by prepositional phrases, or the causal relation is inferred from two juxtaposed sentences; the AP construction was not used in the data analyzed.
Liší se mluvené a psané texty ve valenci? Marie Mikulová, Jan Štěpánek, Zdeňka Urešová
[email protected],
[email protected],
[email protected] V příspěvku představíme Pražský závislostní korpus mluvené češtiny. Syntaktickosémantická anotace textů tohoto korpusu mluvené řeči přinesla (mimo jiné) neočekávaně velké rozšiřování valenčního slovníku PDT-Vallex, který byl doposud budován jen při anotaci psaných textů. Rozšiřování slovníku probíhá na několika úrovních: (i) slovník je rozšiřován o zcela nová slovesa; (ii) ke slovesům, která již ve valenčním slovníku byla obsažena, přibývají nové významy, nové valenční rámce; valenční rámce, které byly ve slovníku již obsaženy, se obohacují (iii) o nové aktanty a (iv) o nové formální realizace aktantů. Všechna tato rozšíření jsou jednak (a) nepříznakové povahy, vyvolaná pouze výskytem nového slovesa, významu, aktantu, formy, ale (b) některá z nich jsou jednoznačně daná specifikem mluvených projevů. V psaném textu by se takové sloveso, daný význam slovesa, aktant, forma s velkou pravděpodobností nikdy nevyskytly. Příkladem příznakového nového slovesa je sloveso pokoupit ve větě (1). Příznakový význam mají například jednotlivá užití slovesa mydlit v autentických dokladech (2). Věta (3) je příkladem nestandardně užitého aktantu u slovesa (sloveso cvičit má obvykle jen jeden akuzativní předmět). Nestandardní, příznakovou formou je vazba na+4 (dráždit na kašel) v příkladu (4). Častou příznakovou formou je realizace přímého předmětu vedlejší větou připojenou podřadicí spojkou že; srov. příklady v (5) . (1) (2) (3) (4) (5)
Pokoupili jsme si tam všelijaké zajímavosti. Mydlili jsme do sebe pěstmi. Mydlil do kytary. Hrát se musí zápěstím, s citem, ne do míčků mydlit. Kněz nás děti cvičil všelijaké básničky. Mám trošku chrapot a dráždí mě to na kašel. Přišli agitovat, že by potřebovali mladé soustružníky do dílen. V Pramenu se dostávalo, že jim zaplatili rekreaci. Zželelo se nám, že jsme Petra nevzali s sebou.
31
Domníváme se, že valenční chování slovesa v mluveném textu může být jiné než v textu psaném. V našem příspěvku se pokusíme vyvodit některé obecnější závěry o valenčním chování sloves v mluvených textech.
K infinitivním podmínkovým větám v češtině Kateřina Milotová
[email protected] Hlavním tématem příspěvku jsou infinitivní podmínkové věty, pro které je specifická absence určitého slovesného tvaru v roli predikátu, jehož pozici zastupuje infinitiv, a dále také realizace subjektu, která není v infinitivní podmínkové větě blokována. Tyto konstrukce jsou také charakteristické tím, že podmínková věta není uvozena spojkou a modálnost není explicitně vyjádřena. Cílem příspěvku je podat, využitím metod korpusové lingvistiky, analýzu infinitivních podmínkových vět v češtině z hlediska slovosledu, role intonace, jednotlivých gramatických kategorií ve větě řídící a jejich případného omezení, či z hlediska postavení podmínkové věty v souvětí. Jádrem příspěvku je pak otázka, zda a jak jsou tyto konstrukce gramatikalizované, v čem je jejich funkce a co jsou jejich konkurenční formy. Na závěr se příspěvek zaměří na téma četnosti výskytu podmínkových infinitivních vět a také na polemiku, zda jsou tyto věty spíše prostředkem mluveného jazyka nebo jsou častým jevem i ve spisovných textech.
Bohemismy v současné slovenštině Květa Musilová
[email protected] 1. Užívání bohemismů v současné slovenštině je v poslední době stále více tematizováno nejen mezi slovenskými odborníky, ale také laickou veřejností. Nakolik je opodstaněný názor, že se bohemismy šíří ve slovenštině nad únosnou míru, tj. především na úkor původní slovenské slovní zásoby, můžeme dokumentovat na jazykovém materiálu Slovenského národního korpusu (prim-5.0-public-all, web-1.0), a to komparací kontaktových a nekontaktových variant.. 2. Zkoumali jsme na 180 lexémů a předložkových vazeb; další část analýzy tvořilo porovnání atributivního rozvíjení zájmen nič a niečo postponovaným adjektivem v genitivu (bohemismus) a v akuzativu/nominativu (původní varianta) – testováno se 150 adjektivy. 2.1. Na základě frekvenční distribuce sledovaných jazykových jevů jsme stanovili kvantitativní poměr mezi kontaktovou variantou (bohemismem) a jejím nekontaktovým (původním) protějškem. Podle míry konkurence KV a NV jsme vydělili 3 skupiny: - skupina I: převažuje varianta nekontaktová (původní) nad bohemismem - skupna: II kontaktová varianta (bohemismus) a nekontaktová varianta existují vedle sebe v celkem vyrovnaném poměru, přičemž kontaktová varianta má nižší frekvenci než nekontaktová - skupina III: kontaktová varianta (bohemismus) má vyšší frekvenci než varianta nekontaktová. 3. Na základě zjištěných hodnot můžeme konstatovat, že značná část námi sledovaných bohemismů sice zaujímá ve slovenštině nezanedbatelný prostor, ale až na výjimky navytlačuje původní varianty na okraj jazykového systému, alespoň pokud jde o
32
texty psané. Komplexnější pohled na vývojové tendence v této oblasti bude umožněn po rozšíření stávající databáze mluvených textů SNK.
Prekrývania a rozdiely slovenských a českých synonymických skupín. Lexika a slovotvorba Mira Nábělková
[email protected] Špecifickú výskumnú oblasť v konfrontačnom zameraní na slovenskú a českú slovnú zásobu predstavujú zhody a rozdiely v synonymických skupinách. Okrem systémového porovnávacieho pohľadu smerujúceho k prehlbovaniu poznania vzájomného vzťahu lexiky obidvoch jazykov je to téma dôležitá aj z hľadiska medzijazykovej komunikácie – pri vzájomnej česko-slovenskej komunikácii výber lexikálnej jednotky patriacej obidvom jazykom (bivalentnej lexémy) môže komunikácii pomáhať, kým naopak výber diferenčnej (a neznámej) lexémy môže viesť k neporozumeniu a komunikačným šumom. Ako príklad synonymických skupín tohto typu možno uviesť SL mláka (s – podľa Slovenského národného korpusu – frekvenčnou dominanciou), kaluž, kalužina, barina – CZ kaluž, kalužina, louže, prekrývajúce sa v bivalentnom pomenovaní kaluž (kalužina). Synonymické skupiny v konfrontačnom pohľade možno analyzovať z hľadiska pôvodu jednotlivých lexém (často ide o rozdielnu regionálnu bázu a v prípade česko-slovenského prekrývania o odraz existencie nárečového kontinua), ich statusu v spisovnom jazyku a v nárečiach, ich sémantického spektra a suprasémantických charakteristík, medziiným (korpusovo doložiteľnej) frekvencie a príslušnosti k štýlovým vrstvám. So statusom v slovnej zásobe a frekvenciou jednotlivých pomenovacích jednotiek v synonymických radoch viac či menej priamo súvisí aj ich derivačná potencia – v česko-slovenskom konfrontačnom pohľade možno diferencie v tomto smere demonštrovať napr. na slovesách hovorenia s rozdielnym statusom prekrývajucich sa lexém a výrazným funkčným zaťažením diferenčných lexikálnych jednotiek, predovšetkým českého slovesa mluvit. S tým súvisia aj rozdielne derivačné potencie a ich realizácia v jednom a druhom jazyku – tak napr. oproti českým derivátom so slovotvorným základom mluv- stoja najmä slovenské deriváty so základom -hovor-, resp. deriváty s iným slovotvorným základom. Príspevok sa zameria na samu závažnosť výskumného zamerania na problematiku synonymických skupín pri porovnávaní českej a slovenskej slovnej zásoby (a jej súvzťažnosť s inými otázkami česko-slovenskej konfrontačnej lexikológie) a na otázku porovnávania synonymických skupín/radov v naznačených smeroch s oporou o lexikografické spracovanie a textové fungovanie zhodných a diferenčných lexém – pri využití evidencie členov synonymických radov v národných a paralelných korpusoch a (ako nárečových heteroným) v atlasovom spracovaní.
Dílčí druhy imperfektivnosti a perfektivnosti. Příspěvek k vidovému systému slovanských jazyků Petr Nádeníček
[email protected] Obecně je přijímáno, že „vidový protiklad ve sl. jaz. reprezentují dvě kategorie: nedokonavost (im-perfektivnost) a dokonavost (perfektivnost) [...]“ (Nübler 2002: 528).
33
Při popisu sémantiky obou ka-tegorií se vychází většinou z předpokladu, že se v případě vidu jedná o privativní opozici, v níž je per-fektivum členem příznakovým. Významovým příznakem perfektiva mají být vlastnosti jako ukonče-nost děje (srov. např. Miklošič 1868– 1874), rezultativnost děje (srov. např. Mazon 1914, Karcevski 1927 nebo Mučnik 1971), vnitřní ohraničení děje (srov. např. Vinogradov 1947), ucelenost děje (srov. např. Dostál 1954), nedělitelná celistvost nebo totalita děje (srov. např. Maslov 1958, Bondarko 1971), teličnost, tzn. ohraničenost (srov. např. Bartnicka 2004), perspektiva zvenčí (srov. např. Růžič-ka 1952), omezené trvání děje (srov. např. Nübler 1992) atd. Tato částečná nejednotnost při pokusech popsat význam vidového protikladu ve slovanských jazycích vede k úvaze, jestli by nebylo vhodnější nesnažit se najít jeden významový rys dělící perfektiva a im-perfektiva, ale přiznat, že se jedná o koexistenci více významů. Takovou úvahu podporují i teorie, kte-ré se pokoušejí vidový protiklad zachytit pomocí popsání svazku příznaků (srov. např. Thelin 1980), popř. které rozlišují různé (pod)významy perfektiv i imperfektiv (srov. např. Bondarko 1971). Právě na tyto teorie bych chtěl navázat svým příspěvkem, v němž se pokouším jít ještě dále a nemluvit pouze o různých možných významech (tzn. užitích v různých kontextech), nýbrž o různých druzích imperfektivnosti a perfektivnosti na úrovni vidu jako lexikální kategorie, jež mohou být postupně v rámci této kategorie i gramatikalizovány. Takovou gramatikalizaci představují např. česká iterativa / frekventativa (jako mívat, dělávat, mluvívat atd.), která je v současné češtině možné – narozdíl od iterativ / frekventativ většiny slovanských jazyků – tvořit paradigmaticky. Pomocí dat získaných z Českého národního korpusu bych chtěl ve svém příspěvku ověřit, popř. i doplnit model, jejž jsem navrhl pro účely své disertační práce a ve kterém pracuji se dvěma, popř. třemi druhy imperfektivnosti a se třemi druhy perfektivnosti (srov. Nádeníček 2011). Tímto částečně změněným úhlem pohledu na slovanský vid má být mimo jiné zdůrazněno rozlišení primárního vidu jako lexikální kategorie a sekundárního vidu, který známe z běžných gramatik slovanských jazyků a jenž je výsledkem gramatikalizace určité části primárního vidu (srov. např. Lehmann 1997, ale částečně už i Dostál 1954 nebo Němec 1956). Tak se aspektologie slovanských jazyků nejen přibližuje pojetí vidu např. v germánských jazycích (v angličtině srov. např. Vendler 1967), nýbrž nabízí i jisté řešení v otázce vymezení kategorie vidu ve vztahu ke kategorii způsobu slovesného děje, jejichž ohraničení činí právě ve slovanských jazycích již od zavedení této opozice problémy (v českém prostředí srov. např. Kopečný 1962 nebo Petr 1986), a v otázce, jedná-li se v případě vidu o kategorii lexikální, nebo gramatickou, popř. o kategorii gramatickou flektivního, či klasifikačního charakteru (srov. např. Nübler 2006). Literatura: Bartnicka, B. (2004): Grammatik des Polnischen. München. Bondarko, A. V. (1971): Vid i vremja russkogo glagola. Značenie i upotreblenie. Moskva. Dostál, A. (1954): Studie o vidovém systému v staroslověnštině. Praha. Karcevski, S. (1927): Système du verbe russe. Essai de linguistique synchronique. Prague.
Jazyková potencialita: studium na bázi hapaxů legomenon Renata Novotná
[email protected] Tento příspěvek se zabývá problémem jazykové periférie, tj. oblasti s nízkofrekventovanými slovy - hapaxy legomenon. Cílem příspěvku je ukázat, které slovotvorné typy jsou nejčastější
34
při tvoření nových pojmenování. Materiálově příspěvek vychází ze vzorku tvarů, které byly v korpusu SYN zachyceny 1-3 výskyty. V celém korpusu SYN je celkem 1.3 milionu těchto tvarů. Proto byly provedeny pouze dílčí sondy: 20 sond o rozsahu 3000 tvarů, tj. celkem 60000 tvarů. Z tohoto počtu tvořily zhruba 50 % chybné tvary (zvl. překlepy), cizojazyčné citátové tvary apod., tj. celkem 29986 tvarů. Základem pro studium jazykové potenciality, které hapaxy často představují, se proto stalo 30014 tvarů, které odpovídají 15840 lemmatům. Na základě výšeuvedených sond se ukázalo, že centrem vznikání nových pojmenování v rámci jazykové potenciality jsou především některé frekventované sufixy, např. –ovský a dále některé části kompozit, např. dlouho-. Soustředíme se tu jako na prototypy na některé z nich. Zastoupení sufixů je však třeba zkoumat na pozadí frekventovaných sufixů z centra slovní zásoby: -ový: 2328 tvarů (7.7 %), 1067 lemmat (6.7 %); -ka: 1688 tvarů (5.6 %), 800 lemmat (5 %); -ovat: 724 tvarů (2.4 %), 367 lemmat (2.3 %). Následující sufixy jsou typické pro materiál hapaxů legomenon: -ovský, např. renčínovský: 648 tvarů (2.1 %), 344 lemmat (2.1 %); -ing/-ink, např. datamining: 227 tvarů (0.7 %), 124 lemmat (0.8 %); -ovitý, např. helikoptérovitý: 147 tvarů (0.5 %), 98 lemmat (0.6 %). Vedle konkrétních sufixů je pro oblast hapaxů legomenon příznačný nárůst pojmenování ve dvou modifikačních slovotvorných kategoriích – u zdrobnělin a slov přechýlených. Zdrobněliny, např. haveloček mají 743 tvarů (2.5 %) a 377 lemmat (2.4 %), slova přechýlená, např. heligonkářka mají 328 tvarů (1 %), 238 lemmat (1.5 %). Pokud jde o kompozita, charakteristická jsou především kompozita typu útočník-střelec, divadlo-dokument, která představují 575 tvarů (1.9 %) a 471 lemmat (2.9 %). Z dalších kompozit vybíráme ta, která byla v rámci sond zachycena jako celek: polo-, např. poločitelný: 2285 tvarů (7.6 %), 1270 lemmat (8.0 %); mega-, např. megakatastrofa: 1320 tvarů (4.4 %), 669 lemmat (4.2 %); video-, např. videokomentář: 1164 tvarů (3.8 %), 595 lemmat (3.7 %); nízko-, např. nízkohlučný: 411 tvarů (1.4 %), 212 lemmat (1.3 %); kino-, např. kinofajnšmekr: 272 tvarů (0.9 %), 142 lemmat (0.9 %); dlouho-, např. dlouhorožec: 222 tvarů (0.7 %), 110 lemmat (0.7 %). Jednotlivým slovotvorným typům bude v příspěvku věnována detailní pozornost.
Korpusy a internet jako zdroje dat pro výzkum produktivity periferního slovotvorného typu: adjektiva typu hrůzoucí (hrůza) v korpusech a na internetu Klára Osolsobě
[email protected] Definice korpusu uvádějí čtyři základní vlastnosti, které musí mít korpus v moderním slova smyslu: 1) strojově čitelná podoba, 2) reprezentativnost zaručená zastoupením vzorků nejrůznějších textů (vyváženost), 3) vymezený a omezený rozsah (reprezentativnost) a 4) standardní anotace (McEnery, Wilson 1996). Pouze při splnění těchto čtyř požadavků je možné podrobovat data získaná z korpusů kvantitativním analýzám a srovnáním. Přesto je teoreticky dokázáno, že jevy zastoupené okrajově, řídce (hapax legomena) se v textech vyskytují se stabilní frekvencí, tj. s nárůstem rozsahu (počtu textů) neklesá počet nově se vyskytnuvších jednotek. Proto se především pro účely lexikografické někdy ustupuje od požadavků vymezeného a omezeného rozsahu korpusu a budují se tzv. monitorovací korpusy, banky textů atd. Jedním z nových trendů v korpusové lingvistice jsou i tzv. velké korpusy získané z webu (Very Large Web Corpora, srov. více Pala, Rychlý 2011). Přestože na FI MU již vznikl (a dále se rozšiřuje) první takový korpus pro češtinu – czes, lze i nadále za jistých okolností a pro jisté účely internet jako korpus používat.
35
Ve výzkumu slovotvorby se vedle frekvence utvořených jednotek sleduje též produktivita slovotvorného typu (schopnost být modelem pro další tvoření). Z tohoto hlediska chceme ve svém příspěvku ukázat, jak více dokladů jednoho velmi okrajového typu adjektiv získaných z korpusů a především z internetu může pomoci doplnit představu o produktivitě slovotvorného typu považovaného v lingvistické literatuře za periferní. Figury založené na opakování příbuzných slov označuje stylistika (poetika) termíny polyptoton (opakování téhož slova v různých flektivních tvarech: hrůza hrůz) a figura etymologica (spojení sloveso + objekt nebo substantivum + atribut slov téhož základu : hrůza hrůzoucí ). Struktury N+N(gen. pl.), tedy např. píseň písní, které vyjadřují nejvyšší stupeň vlastnosti se někdy označují termínem hebrejský superlativ. O hebrejském superlativu lze ovšem mluvit i v případě konstrukcí obdobného významu typu N+(A
36
Schejbalová, Z.: Reduplikace jako slovotvorný prostředek v češtině a ve francouzštině. In: Přednášky a besedy z XLIV. běhu LŠSS, Brno : FF MU, 2011, s. 192–212. Šmilauer, V.: Novočeské tvoření slov. Praha : Státní pedagogické nakladatelství, 1972. Trávníček, F.: Mluvnice spisovné češtiny I. Praha : Slovanské nakladatelství, 1951. Elektronické zdroje: Korpus SYN2010: Český národní korpus - SYN2010. Ústav Českého národního korpusu FF UK, Praha 2010. Dostupný z WWW:
. Korpus SYN2009PUB: Český národní korpus - SYN2009PUB. Ústav Českého národního korpusu FF UK, Praha 2010.Dostupný z WWW: . Korpus SYN2006PUB: Český národní korpus - SYN2006PUB. Ústav Českého národního korpusu FF UK, Praha 2006. Dostupný z WWW: . Korpus SYN2005: Český národní korpus - SYN2005. Ústav Českého národního korpusu FF UK, Praha 2005. Dostupný z WWW: . Korpus SYN2000: Český národní korpus - SYN2000. Ústav Českého národního korpusu FF UK, Praha 2000. Dostupný z WWW: . SYN: Český národní korpus - SYN. Ústav Českého národního korpusu FF UK, Praha. Dostupný z WWW: . Korpus czes. Dostupný z: http://ske.fi.muni.cz/bonito Korpusový manažer BONITO [online]. Dostupný z . Internetový vyhledávač Google [online]. Dostupný z . DebDict – internetový prohlížeč slovníků umožňující mj. přístup k elektronickým verzím SSJČ, SSČ, PSČ, SČFI [online]. Dostupný z: .
The co-occurrence of denominal and deadjectival verbs with their base words in Modern Lithuanian (a corpus-based study) Jurgis Pakerys, Erika Rimkutė, Andrius Utka [email protected] Complex lexemes serve a number of functions and some of them are closely related to the composition of texts. As Lipka (1987; cf. also 2002: 187-189) argues, the constituents of complex lexemes occurring in the preceding or the following co-text create lexical cohesion and coherence, cf. examples (1) and (2) taken from Lipka (1987: 62): (1) Not since... 1941 when Rudolf Hess flew off from Berlin to Scotland... had a private trip abroad by a German leader so puzzled his countrymen. This time the puzzler was none other than Franz Josef Strauß... (2) [Sub-heading of an article:] Der “Einfädler” des DDR-Kredits versetzt seine Anhänger in Staunen. [Passage from the text:] Daß Franz Josef Strauß den MilliardenKredit für die DDR, wie er selbst sagt, “eingefädelt” hat... In our project, we aimed to study the cases when Lithuanian denominal and deadjectival verbs (further referred to as N/Adj-verbs) co-occur with their base words, cf. atstov-au-ti ‘to represent’ ← atstov-as ‘representative’ in (3) where the base word precedes the derivative and (4) where the base word follows it: (1) [PIRMININKAS]. Ačiū. Komiteto atstovas ponas K. Dirgėla, kuris komiteto pavedimu atstovauja šiam dokumentui...
37
‘[CHAIR-MAN] Thank you. The representative of the committee Mr. K. Dirgėla who represents this document...’ (2) Bet vis dėlto mes, patinka kam ar nepatinka, atstovaujam tautai, esam tautos atstovai ir formuojam tam tikrą politiką... ‘But nevertheless, someone likes it or not, we represent the nation, we are the representatives of the nation and we form certain policies...’ We started with a 1 million-word corpus of Modern Lithuanian to test the methods of our study and then moved to an 82 million-word corpus. The lists of N/Adj-verbs of both corpora were compiled and a text search application was developed to locate the cases when N/Adj-verbs and their base words co-occur. In quite many instances, the co-occurrence was qualified as accidental and we had to manually mark the cases when the derivative and the base word could be argued to have a certain textual relationship. The relation between the total number of all co-occurrences of N/Adj-verbs with their base words and the total number of N/Adj-verbs with the suffix X was used to determine the co-occurrence productivity of that suffix. The value of the co-occurrence productivity showed some correlation with the percentage of the cases when the textual relationship between the N/Adj-verb and the base word was recognized. On the other hand, the total number of cooccurrences had a weaker correlation with the percentage of textually related co-occurrences. The study also demonstrated that the co-occurrence of the derivative and the base word is quite untypical for the deadjectival verbs and that the ranking of denominal suffixes according to the number of cases of related co-occurrence corresponds to their general morphological productivity. References Lipka, L. 1987. Word-Formation and Text in English and German. In: B. AsbachSchnitker, J. Roggenhofer (eds.), Neuere Forschungen zur Wortbildung und Historiographie der Linguistik. Festgabe für Herbert E. Brekle zum 50. Geburtstag, Tübingen: Narr, 59–67. Lipka, L. 2002. English Lexicology: Lexical Structure, Word Semantics, and WordFormation, Tübingen: Narr.
Některé vybrané substantivní sufixy v češtině (-ák, -ec, -ík, -ník) – případová studie Karel Pala, Dana Hlaváčková [email protected], [email protected]
V příspěvku popisujeme derivační chování českých substantivním sufixů: -ák, -ec, -ík/-ník a ... (bude doplněno). Jako výchozí datový zdroj posloužil strojový slovník českých kmenů (cca 400 000 položek), který je součástí morfologického analyzátoru ajka (Šmerk 2010). Díky jeho rozsahu lze pokládat předložený popis za prakticky vyčerpávající. Chování sufixů sledujeme pomocí sw. nástroje Deriv (Šmerk et al 2010). Součástí uvedeného popisu je také úplný výčet alternací, které se u daných sufixů vyskytují a jsou relevantní. V případech, kdy v kmeni probíhají hláskové změny. Dále věnujeme pozornost sémantice jednotlivých sufixů tak, že charakterizujeme jejich význam ve vztahu ke kmenům, s nimiž se derivačně pojí, a uvádíme jejich funkční zatížení včetně příslušných frekvenčních údajů. Získané výsledky jsou podle potřeby porovnány s korpusem SYN2000 a SSJČ skrze
38
nástroj Debdict. V závěru uvádíme evaluaci získaných výsledků. Jde o nové výsledky, které v dané podobě nebyly dosud pro češtinu k dispozici.
Segmentace textu na věty Helena Palátová, Marek Grác [email protected] Pro češtinu v současné době existuje spousta nástrojů schopných na dobré úrovni popsat její morfologickou rovinu, ale co se týče její volnější, a proto hůře formálně popsatelné syntaxe, musí se (i přes všechny dosavadní pokusy o vytvoření kvalitního automatického syntaktického analyzátoru) nejen korpusoví lingvisté prozatím obejít bez nástrojů, které by byly schopny do textových korpusů vložit syntaktické značky, podle nichž by se lépe v textech vyhledávalo a zkoumalo jazyk na této rovině. Aby byly nástroje schopny účinně rozpoznávat a popisovat vztahy mezi jednotlivými textovými slovy, potřebují nejprve jasně a především správně rozpoznat hranice jednotlivých autonomních celků, tedy hranice vět. V naší práci jsme se zabývali delimitací věty (sentence). Tato problematika byla sice již v minulosti řešena a prakticky každý korpus má vyznačené hranice vět, ale problematiku určování hranic vět v okrajových případech stále nepovažujeme za dořešenou. Až po dořešení tohoto problému je možné zjistit, jak kvalitně fungují existující automatické nástroje, a můžeme řešit jejich vylepšování. Proto jsme zvolili následující postup. Nejprve byla stanovena formální pravidla, která byla poté použita v návodu pro anotátory. Při tvorbě pravidel jsme se zaměřili zvláště na formální zvláštnosti některých syntaktických konstrukcí používaných v českých textech. Právě těmito pravidly se řídili anotátoři při práci s korpusem současných blogových textů. Text ručně segmentovali na jednotlivé věty a vytvořili tím jednotná data. Takto vytvořená data byla základem pro upřesnění pravidel a vyšší interanotační shodu. V příspěvku prezentujeme formální a jednoznačná pravidla pro určování hranic vět spolu s jejich zdůvodněním na korpusovém materiálu. Vytvořená data plánujeme zpřístupnit tak, aby mohla sloužit nejen jako testovací data, ale i jako zdroj pro statistické (automatické) strojové učení.
Vybrané aspekty syntaktického popisu srovnávacích konstrukcí Pavel Pečený [email protected] Příspěvek se věnuje problematice popisu srovnávacích konstrukcí v češtině. Ty bývají v tradičních mluvnicích a skladbách obvykle klasifikovány na základě sémantického hlediska (např. srovnání ve smyslu stejné vlastnosti, míry apod.). Takový přístup ovšem vykazuje jisté slabiny, jako například nejasnou hranici mezi srovnáním ve smyslu shody a podobnosti nebo v praxi ne zcela funkční odlišení některých dílčích podtypů srovnání totožnosti/podobnosti. Hlavním cílem příspěvku je proto přestavit vybrané aspekty odlišného přístupu, který vychází z popisu jednotlivých členů srovnávací konstrukce (komparační báze, komparandum, iniciátor srovnání, srovnávací hledisko a srovnávací operátor) a z charakteristiky jejich fungování na povrchové i hloubkové rovině věty. Klasifikace v našem případě vychází z analýzy dokladů z Pražského závislostního korpusu (PDT) a výběrově z Českého národního korpusu (ČNK). Je založena mj. na zohlednění faktorů, které mají vliv na realizaci povrchové
39
struktury věty (např. kontextová zapojenost jednotlivých členů, syntaktické obsazení konstrukce, délka výpovědi, typu komunikátu apod.).
Konstrukce s formálním objektem v němčině a jejich protějšky v češtině Hana Peloušková [email protected] Již několik let vzniká kontrastivní studie o německých konstrukcích s es a jejich českých ekvivalentech. Cílem této studie je vytvořit teoretický podklad pro následné lingvodidaktické zpracování dané problematiky. Výzkum se opírá o autentická jazyková data vytěžená z česko-německých paralelních korpusů ČNPK a InterCorp. Studie vychází z osvědčené klasifikace funkcí es: • zájmeno (Pronomen/Prowort): Es (=das Kind) spielt. • „platzhalter“(Platzhalter): Es wird getanzt. Es kamen viele Leute. • korelát (Korrelat): Es freut mich, Sie kennen zu lernen. • formální subjekt či objekt (formales Subjekt/ Scheinsubjekt, formales Objekt/Scheinobjekt): Es regnet. Ich habe es eilig. 5 Tento příspěvek je dalším stavebnim kamínkem plánované studie a zabývá se konstrukcemi s es v roli formálního objektu a jejich českými protějšky. Formální subjekty a objekty tvoří téměř čtvrtinu všech německých es. Drtivě převládají (96%) formální subjekty. Zatímco formální subjekty své české ekvivalenty nemají, v některých českých protějšcích německých konstrukcí s formálním objektem figuruje sémanticky prázdné obligatorní to: např. es weit bringen – dotáhnout to daleko, es schwer/leicht haben – mít to těžké/lehké, es mit j-m gut meinen – myslet to s někým dobře apod. Příspěvek popisuje strukturu doložených a frekventních německých konstrukcí s formálním objektem a jejich českých protějšků, prezentuje rozmanitost českých protějšků a srovnává vlastnosti formálních objektů v němčině a v češtině.
Null and overt pronominal subjects in Spanish on syntactic-pragmatic interface Andrea Pešková [email protected] This paper investigates the use of pronominal subjects (PS) in Spanish, whose grammar permits their omission. The lack of PS in sentence is commonly attributed to the “rich” verbal morphology (e.g. cantamos ‘we sing’, cantas ‘you sing’). An extensive research on the nullsubject or pro-drop property in Spanish combines different descriptive (e.g. Chomsky 1981; Bosque 1987; Luján 1999) and empirical perspectives (e.g. Hochberg 1986; Silva-Corvalán 2001), which are usually treated separately in the literature. The aims of my paper are twofold: (1) to investigate the use of pronominal subjects on syntactic-pragmatic interface (word order and information structure) and (2) to show that the corpus-based analysis of spontaneous language may lead to a better understanding of the use of grammar in a natural way. My hypothesis on the use of PS in Spanish contradicts the traditional explanation given 5
Srov. např. Buscha 1972.
40
by grammarians, who state that the PSs have to be realised only if interpreted as contrastive topics ([Tc]) or focus ([F]), see (1) and (2): (1) Sp. Juan quiere ir al cine, pero *([Tc yo]) prefiero ir al teatro. En. ‘John wants to go to the cinema, but *([Tc I]) prefer to go to the theater’ (2) Sp. El libro lo compré *([F yo]) y no María. En. ‘*([F I]) bought the book and not Mary’ I will argue that the speakers realise the PS, even in non-contrastive, non-focal or nonambiguous contexts. In this aspect, I will also continue and discuss Frascarelli’s (2007) statement that the variation overt vs. null PS correlates with the contrast between aboutnessshift vs. familiar topic. The questions posed by this paper are: What strategies do the speakers apply for the null and overt PS? What is the correlation between syntactic and discursive properties of realised PS? And, what is the bridge between the grammar of one specific language and its usage? The large corpus-based study should provide an answer and help to develop methods for analysis of this linguistic phenomenon. REFERENCES: BOSQUE, I. (1987): Clase de sujetos tácitos. Philologica. Homenaje a Antonio Llorente. Salamanca, pp. 91-111; CHOMSKY, N. (1981): Lectures on Government and Binding. Dordrecht: Foris; FRASCARELLI, M. (2007): Subjects, topics and the interpretation of referential pro: An interface approach to the linking of (null) pronouns. Natural Language and Linguistic Theory 25(4): 691-734; HOCHBERG, J. (1986): Functional Compensation for /s/ Deletion in Puerto Rican Spanish. Language 62(3): 609-621; LUJÁN, M. (1999): Expresión y omisión del pronombre personal. In Bosque, I. & Demonte, V. (eds.), Gramática descriptiva de la lengua española, pp. 1275-1315. Madrid: Espasa Calpe; SILVA-CORVALÁN, (2001): Sociolingüística y pragmática del español. Washington: GU Press. Kopečný, F. (1962): Slovesný vid v češtině. Praha. Lehmann, V. (1997): „Der Aspekt – wie lexikalische Kategorien grammatische Funktionen motivieren“. In: Kosta, P. (ed.): Slavische Linguistik 1996. München, s. 137–154. Maslov, Ju. S. (1958): Rol’ tak nazyvaemoj perfektivacii i imperfektivacii v processe vozniknovenija slavjanskogo glagol’nogo vida. Moskva. Mazon, A. (1914): Emplois des aspects du verbe russe. Paris. Miklošič, F. (1868–1874): Vergleichende Grammatik der slavischen Sprachen. IV. Syntax. Heidelberg. Mučnik, I. P. (1971): Grammatičeskie kategorii glagola i imeni v sovremennom russkom literaturnom jazyke. Moskva. Nádeníček, P. (2011): Das tschechische Aspektsystem im Vergleich mit dem Verbalaspekt des Russischen und Polnischen. Hamburg. Němec, I. (1956): „Kategorie determinovanosti a indeterminovanosti jako základ slovanské kategorie vidu“. In: Slavia 25, s. 496–534. Nübler, N. (1992): Untersuchungen zu Aktionsart und Aspekt im Russischen und Tschechischen (am Beispiel der mit na- präfigierten Verben). Regensburg. Nübler, N. (2002): „Vid“. In: Karlík, P. / Nekula, M. / Pleskalová, J. (ed.): Encyklopedický slovník češtiny. Praha, s. 527–531. Nübler, N. (2006): „Der Status des Verbalaspekts im Sprachsystem des Russischen“. In: Anzeiger für Slavische Philologie 34, s. 93–113.
41
Petr, J. (ed.) (1986): Mluvnice češtiny 2: Tvarosloví. Praha. Růžička, R. (1952): „Der russische Verbalaspekt“. In: Russischunterricht 4, s. 161–169. Thelin, N. B. (1980): „Aspekt und Aktionalität im Russischen“. In: Die Welt der Slaven 25, s. 428–440. Vendler, Z. (1967): „Verbs and Times“. In: Vendler, Z.: Linguistics in philosophy. Ithaca, s. 97–121. Vinogradov, V. V. (1947): Russkij jazyk (grammatičeskoe učenie o slove). Moskva.
Automatické rozpoznávání substantivního dativu a jeho syntaktických funkcí v českých textech Vladimír Petkevič [email protected] Příspěvek se zabývá velmi obtížným problémem automatické identifikace relativně málo frekventovaného pádu v češtině, totiž dativu, v českých korpusových textech a problémem určení jeho syntaktické funkce. Rozpoznat jakýkoli pád v českém textu automaticky, tj. počítačovým programem, je vzhledem k vysoké tvarové homonymii forem patřících k různým slovním druhům a vzhledem k velkému pádovému synkretismu v české deklinaci velmi nesnadné. Správné určení pádu je však nezbytné ke správnému určení syntaktické struktury české věty a jejích větných členů. Autor se v příspěvku konkrétně zaměří na dativ substantiva a na základě českých textů v korpusu SYN2010: a) představí typy homonymie substantivních dativních forem b) uvede přibližnou úspěšnost dosavadního automatického značkování dativu v korpusu SYN2010 c) uvede přehled syntaktických funkcí dativu d) uvede netriviální disambiguační pravidla pro pozitivní i negativní rozpoznání dativu zejména na základě slovesné a substantivní valence e) pokusí se stanovit pravidla (i heuristická) pro automatické rozpoznání syntaktických funkcí dativu. Autor se zaměří především na nepředložkový dativ, jehož určení je mnohem obtížnější než určení dativu předložkového. Představí rovněž hlavní problémy spjaté s pádovým synkretismem dativu a předvede hlavní chyby při určování dativu v korpusu SYN2010. Jejich přehled bude motivovat způsoby, jak tyto chyby odstranit, a to zejména na základě skupin sloves a substantiv majících obligatorní a častou dativní valenci. Autor předvede, jak valenčních informací o slovesech a substantivech využít k náležité disambiguaci dativních substantiv. Bude se zabývat i případy, kdy je dativ substantiva určen nesprávně. V závěru pojedná o pravidlech týkajících se stanovení syntaktických funkcí dativu.
42
Automatické generování slov ve slovanských jazycích na základě jejich společných historických kořenů Patrice Pognan, Jarmila Panevová [email protected], [email protected] Diachronický vývoj češtiny i pozvolný vzájemný rozestup západních slovanských jazyků jsou známé a odpovídající jevy jsou na základě diachronního výzkumu dobře popsány a evidovány. V rámci česko-francouzského projektu „Barrande“ jsme se snažili zjistit, do jaké míry skupina západních slovanských jazyků ještě představuje jednotný lingvistický systém. Takto získané poznatky jsou využitelné při strojovém překladu mezi přibuznými jazyky a pro jednotnou výuku těchto jazyků. Při formulaci počítačového programu pro zpracování hláskových změn ve slovanských jazycích nám byla východiskem „Historická mluvnice češtiny“ J. Bauera, A. Lamprechta a D. Šlosara 6; dále jsme se opírali o databázi „Etymological Dictionary of the Slavic Inherited Lexicon“ 7, dokud byl k ní zajištěn volný přístup 8, později pak o její publikovanou verzi. 9 Do původního projektu bylo zahrnuto zkoumání dolní a horní lužické srbštiny, češtiny, slovenštiny a polštiny., Protože se ukázalo, že slovinština, chorvatština a srbština vykazují kontinuitu s vývojem těchto jazyků, byly do počítačového programu také zahrnuty. To potvrzuje netradiční Starostinovu hypotézu o seskupení slovanských jazyků. 10 Počítačový program byl sestaven tak, že důsledně sleduje chronologii historických jevů, jak jsou podány v „Historické mluvnici češtiny“ (např. metateze se samohláskou „e“ musí nutně předcházet zpracování jerů). Převážná část programu se týká jevů prvního období do konce desátého století, tj. metateze, stahování, zpracování jerů a staroslovanských nosovek. Při zpracování jerů se ukázalo, že pro platnost Havlíkova pravidla je nutno detailněji rozpracovat tzv. „zánik“ lichého měkkého jeru, který nezaniká vždy, ale výsledek závisí na dalších kontextových podmínkách. Při zpracování nosovek hraje prvořadou roli akcentologie (je třeba zvlášť pracovat s dlouhým/krátkým stoupajícím přízvukem, s dlouhým/krátkým klesajícím přízvukem, s dlouhou nepřízvučnou nosovkou atd.). Zpracování jevů dalších dvou period je o něco jednodušší (změna g na h, přehlásky ‘a/ě a ‘u/i, depalatalizace, monoftongizace a diftongizace). Výsledky ukazují, že se ve vývoji studovaných slovanských jazyků jedná o ucelený lingvistický systém, který má na jedné straně přijatelnou předvídatelnost, na druhé straně také svoje meze. V příspěvku budou autoři demonstrovat výstupy několika staroslovanských kořenů (soud, pouť, břeh, hruď, kráva,…) v těch současných slovanských jazycích, které byly do výzkumu zahrnuty, na základě pravidel počítačového programu.
6
Lamprecht, A., Šlosar, D. & Bauer, J. (1986). Historická mluvnice eštiny. SPN, Praha. Indo-European Etymological Dictionary of the Department of Comparative Indo-European Linguistics at Leiden University. 8 Derksen, R. (2008): Etymological Dictionary of the Slavic Inherited Lexicon. Brill, Leiden. 9 Indo-European Etymological Dictionary of the Department of Comparative Indo-European Linguistics at Leiden University 10 Viz. Blažek, V. (2005): On the internal classification of Indo-European languages: survey, Linguistica ONLINE, ISSN 1801-5336. http://www.phil.muni.cz/linguistica/art/blazek/bla-003.pdf. 7
43
Pojmenování s „účelovými adjektivy“ v současné češtině a jejich ruské ekvivalenty: pokus o korpusovou analýzu Dmitrij Poljakov [email protected] V referátu se zaměřím na analýzu českých nominací, jejichž součástí jsou tzv. „účelová“ adjektiva (ÚA) se slovotvorným sufixem -cí typu prací, grilovací, holicí, čtecí apod., která „vyjadřují, že něco je k nějaké činnosti určeno, že něco funguje na nějakém principu“ (Macháčková 1989, 53). Tento typ adjektiv byl v bohemistické literatuře už nejednou popsán, zvláště s hlediska jejich odlišnosti od adjektv dějových, srov. holicí vs. holící. Bylo rovněž poukazováno na jejich produktivitu; tak ještě F. Svěrák (1953) tvrdil, že „tvoření těchto adjektiv je živé“, a konstatoval pronikání ÚA z oblasti odborné do „obecného jazyka spisovného“. Korpusová analýza jak samotných ÚA, tak pojmenování s nimi může být přínosná nejen pro českou lexikografickou praxi. Zde umožní upřesnit množství nových ÚA (a příslušných pojmenování), např. oproti stavu zachycenému ve dvou dílech slovníku Nová slova v češtině, který se v tomto ohledu nezdá být vyčerpávající. Za pomoci korpusových dat se však chci pokusit také o typologii tvoření ÚA v češtině, při němž, jak se ukazuje, nejsou využívány jen slovesné kmeny připojující sufix -cí, ale také „předponové“ a radixoidní komponenty (typu samo-, srov. samoopalovací při *samoopalovat (se)). Nakonec představím výsledky srovnání českých pojmenování s ÚA a jejich funkčních ekvivalentů v ruštině, svědčící o tom, že v ruštině existují podobná adjektiva jako konsolidovaný slovotvorný typ jen v omezeném rozsahu a sémantika „určenosti“ a „fungování na nějakém principu“ je zde většinou pouze implikována, ba často i potlačena. Tak ruské protějšky českých ÚA v pojmenováních jako bicí hodiny, čisticí potřeby buď mají význam ryze charakterizační (часы с боем), anebo představují homonymii s dějovým adjektivem (чистящие средства – srov. уборщик, чистящий помещение, tj. rusky to nejsou „potřeby na čištění“, ale „potřeby, které čistí“). To znamená, že rozlíšení účelového a dějového významu, důsledně provedené v češtině, pro ruštinu často neplatí. Literatura: Macháčková E. Pečicí jednotka ETA // Naše řeč. 1989. Roč. 72. Č. 1. Svěrák F. K účelovým přídavným jménům na –icí // Naše řeč. 1953. Roč. 36. Č. 7 – 8.
Creating Corpora Using Corpus Architect Jan Pomikálek, Vít Suchomel [email protected] Corpus Architect is a web application for building textual corpora comfortably. It is used in connection with corpus manager Manatee/Bonito in Sketch Engine [3] which makes it a powerful tool for language researchers. It has been developedin NLP Centre at Masaryk University in cooperation with Lexical Computing Ltd. It is available at http://sketchengine.co.uk. The application enables users to create a collection of textual documents. Basically, users supply their own documents. Input formats doc, html, pdf, txt and vertical are supported. Various data processing tasks may be applied: tokenization, lemmatization, part of speech tagging and _nal conversion to vertical format. Third party taggers are available for English,
44
German, French, Spanish, Russian, Italian1, Chinese2, Japanese3, Czech[5,1] and other languages. Once the corpus data is gathered and processed, it is ready to be queried in the corpus manager. Another option is instructing the Corpus Architect to gather textual documents from the internet. An approach similar to Corpus Factory[2] is used. In this scenario, a user describes the web documents to obtain | either directly by specifying URLs of the documents or indirectly by supplying key words to search for using an external web search engine. While the documents are being downloaded, a set of embedded tools designed for processing and cleaning web data is utilized.[4] 1 TreeTagger + trained models 2 Stanford Chinese Segmenter and Tagger 3 ChaSen References 1. Jakub___cek, M., Hor_ak, A., Kov_a_r, V.: Mining phrases from syntactic analysis. In: Lecture Notes in Arti_cial Intelligence, Proceedings of Text, Speech and Dialogue 2009. pp. 124{130. Springer-Verlag, Plze_n, Czech Republic (2009) 2. Kilgarri_, A., Reddy, S., Pomik_alek, J., PVS, A.: A corpus factory for many languages. Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'10, Malta) (2010) 3. Kilgarri_, A., Rychl_y, P., Smr_z, P., Tugwell, D.: The sketch engine. Proceedings of Euralex 2004 4. Pomik_alek, J.: Removing Boilerplate and Duplicate Content from Web Corpora. Ph.D. thesis, Masaryk University, Brno (2011) 5. _Smerk, P.: Unsupervised Learning of Rules for Morphological Disambiguation. In: Lecture Notes in Arti_cial Intelligence 3206, Proceedings of Text, Speech and Dialogue 2004. pp. 211{216. Springer-Verlag, Berlin (2004)
Konkurence předložkových a bezpředložkových vazeb v současné češtině Hana Prokšová [email protected] Příspěvek se bude zabývat konkurencí vybraných předložkových a bezpředložkových vazeb v současné češtině. Vedle některých tradičně bezpředložkových vazeb se prosazují i vazby s předložkou, a naopak jsou i tendence u vazeb tradičně předložkových předložku vypouštět. Dochází tak ke koexistenci dvou vazebných rámců. Nejsou to pouze často citované slovesné vazby diskutovat něco – diskutovat o něčem apod., ale rovněž spojení typu víčko lahve – víčko od lahve, pojem fyziky – pojem z fyziky, houpat židlí – houpat s židlí, jet autem – jet s autem aj. Právě na druhou jmenovanou skupinu se bude soustřeďovat předkládaný příspěvek. Konkurenci bezpředložkových a předložkových vazeb dosud nebyla věnována v české lingvistice zvýšená pozornost. Aktuálnost této problematiky však ukazuje nejen praxe jazykové poradny ÚJČ AV ČR, kde si tazatelé „správnost“ té či oné konstrukce ověřují, a tím i narůstající potřeba zachytit normu v dané jazykové oblasti, ale i potřeba začlenit tento jev jednak do koncepce pojímání slovního druhu předložek, jednak do teorie sémantiky a funkce českých pádů. Některé z těchto konkurencí vznikaly v češtině již dříve pod vlivem němčiny, respektive vlivem paušálního odmítání germanismů, avšak ani ve starší jazykovědné literatuře nebyla tato problematika systematicky zachycena.
45
Výzkum se zakládá na jazykových datech získaných z korpusu, a to i korpusu mluveného. Mělo by jej podpořit rovněž dotazníkové šetření, v němž jsou zkoumány postoje mluvčích ke gramatické správnosti vybraných předložkových spojení. Ta ilustrují několik sémantických oblastí, v nichž k jistým posunům dochází a do nichž byla autorkou zařazena např. sémantická oblast instrumentu či konkurence část–doplněk. Cílem příspěvku je zachytit možné gramatické a sémantické aspekty této distribuce s ohledem na širší kontext funkce jednotlivých pádů v češtině a vymezení určitých předložek.
What types of participial adjectives occur after ‘to be’ in copular function? An attempt at categorization Olga Richterová [email protected] The aim of our paper is to identify various categories of so-called participial adjectives (PAs), or -ící/-oucí forms (e.g. fascinující, ‘fascinating’), that tend to occur after a semantically empty verb, here represented by the copulatively used forms of ‘to be’. To do so, we will investigate possible factors influencing the distribution of different -ící forms in the position following the copula. The investigated factors will be a) characteristics of the verb, such as person, number and tense (forms co-occurring with 3rd person singular of present tense will be compared e.g. to those co-occurring with the past tense or to those found together with 1st person plural); b) distance (PA forms occurring directly after the verb will be compared to those preceded by one to three other lexemes (the part-of-speech category of the dividing lexemes will be also looked into); c) semantics of the PAs (special attention will be paid to modality and degree of abstraction); d) syntactic characteristics of the PAs (especially loss/retention of obligatory verbal valence); e) the in/animacy and in/concreteness of the subject of the verb. Such an analysis will be accompanied by addressing the hypothesis that PAs following copular verbs tend not to express concrete actions. At the same time, the paper will also raise the issue whether referring to a specific action (‘actualness’) as compared to referring to a general action (‘habituality’) is not more important than the concrete / abstract distinction. Another hypothesis to be confirmed or refuted is the question whether it plays a role when a subject is also an agent. The whole analysis will be carried out on the genre of journalistic texts. Thus, we will investigate the occurrence of the above-described structure in the SYNpub2009 and SYNpub2006 corpora, not forgetting to create subcorpora of journalistic texts based on SYN2000, SYN2005 and SYN2010. By doing so, we will be able to see if the use of the investigated construction tends to change in time. All in all, the large datasets obtained by a CQP query will be analyzed for frequencies and possible semantic classes and randomized samples will be extracted for a detailed analysis, which will be carried out with the help of a Microsoft Access database.
46
Word order in learner language: marked vs. unmarked themes Sylvi Rørvik [email protected] Contrastive studies of English and Norwegian have shown that Norwegian has a greater preference for marked themes (defined according to Halliday 2004: 78) than English does, despite similar syntactical resources in the two languages (Hasselgård 1997, 2004, 2005). Given this tendency, which word order is preferred by Norwegian students of English? The following two research questions will be answered: 1. Do Norwegian students of English transfer the preference for marked themes from their L1, or are they able to adapt English word order patterns? 2. If it is the case that Norwegian students of English overuse marked themes compared to native-speakers, this might impair cohesion. Do the students compensate for this by overusing connectors to signal relations between sentences? The material for the study comprises five text categories: argumentative texts in English written by Norwegian students, from the Norwegian component of the International Corpus of Learner English (NICLE); argumentative newspaper texts in English and Norwegian; and argumentative L1 student essays in English and Norwegian. The method is based on the Integrated Contrastive Model (Gilquin 2000/2001), starting with a comparison of the two expert L1 categories (the newspaper texts) in order to confirm previous findings about word order preferences in English and Norwegian. Next, the NICLE texts are compared with the English newspaper texts, to determine whether the Norwegian students have the same word order preferences as native speakers. Any differences identified will be compared with the features in the Norwegian newspaper texts, which should reveal whether such differences are caused by transfer. Finally, the NICLE texts will be compared with the two native-speaker student categories, as previous studies have indicated that both L1 and L2 texts written by novice writers share various features (e.g. Berry 1995; Rørvik 2012).
References Berry, Margaret. 1995. “Thematic options and success in writing.” In Ghadessy, Mohsen (ed.), Thematic Development in English Texts. London & New York: Pinter, 55-84. Gilquin, Gaëtanelle. 2000/2001. “The Integrated Contrastive Model. Spicing up your data.” Languages in Contrast 3:1, 95-123. Halliday, M. A. K. 2004. An Introduction to Functional Grammar. 3rd edition, revised by C. M. I. M. Matthiessen. London: Arnold. Hasselgård, Hilde. 1997. “Sentence openings in English and Norwegian.” In Ljung, Magnus (ed.), Corpus-based studies in English. Papers from the 17th International Conference on English Language Research on Computerized Corpora. Amsterdam: Rodopi, 3-20. Hasselgård, Hilde. 2004. “Thematic choice in English and Norwegian.” Functions of Language 11:2, 187-212. Hasselgård, Hilde. 2005. “Theme in Norwegian.” In Berge, Kjell Lars and Eva Maagerø (eds.), Semiotics from the North. Nordic approaches to systemic functional linguistics. Oslo: Novus Press, 35-47. Rørvik, Sylvi. 2012. “Thematic progression in learner language.” In Hoffmann, Sebastian, Paul Rayson, and Geoffrey Leech (eds.), English Corpus Linguistics: Looking back, Moving forward. Papers from the 30th International Conference on English Language
47
Research on Computerized Corpora (ICAME 30). Amsterdam – New York: Rodopi, 165177.
Grammar-based treebank – a happy marriage of empiricism and theory? Alexandr Rosen [email protected] There may be different opinions about the status of linguistic competence and performance, with similar splits in the world of natural language processing, but the continuing existence of both grammars and corpora indicates that the two notions are like two sides of a coin. In fact, I want to argue that with the emergence of syntactic annotation the two sides may be close to reconciliation, at least in methodology. I hope to be forgiven for disregarding a number of aspects while contrasting the more theoretical notions of competence, langue, or language system on the one hand (henceforth T), with the more empirical notions of performance, parole, or language use on the other (E). While both grammars and corpora reflect E, grammars consist of abstract rules, representing some approximation of T. Until relatively recently, E was available for immediate observation only in tiny fragments of individual examples, but the advance of corpus as a (relatively) representative choice of examples of language use means that an approximation is now available for both T and E. The link between E and T can be seen as being represented by corpus annotation. The fact that there are multiple linguistic theories and a number of levels of analysis results in many types of annotation. This is not necessarily a defect, they may be useful and justified, complementing each other. To close the gap between E and T even further, the annotation can be formally defined. In the ideal case, the definition is a de facto grammar of the language in the corpus. In addition to the theoretical appeal, this has a number of advantages: the formal definition may support checking of both the data and the grammar, help to formulate efficient queries, offer concordances as correctly displayed structures, provide conversions to different representations, assist grammar development. A grammar-based corpus make most sense as a treebank, a corpus annotated with syntactic structures, also as a result of parsing the corpus by an automatic tool using an implemented grammar. A "parsebank" like this could be useful due to its size, unrestricted by the capacity of human annotators, even at the cost of higher error rate. Following an overview of existing (grammar-based) treebanks, a few interesting aspects of a project of Czech grammar-based treebank (see refs below) will be introduced using several examples of syntactic structures, demonstrating the idea of multiple representation options, as well as a few issues that occur even in a happy marriage. ---
esk – – .
48
ger, P., Petkevič, V., Rosen, A., and Skoumalová, H. (2012). Towards a treebank for all tastes. In Ziková, M. and Dočekal, M., editors, Slavic Languages in Formal Grammar. Proceedings of FDSL 8.5, Brno 2010, pages 49–63, Frankfurt am Main. Peter Lang.
, M., and Branco, A., editors, Proceedings of the META- RESEARCH Workshop on Advanced Treebanking, LREC 2012, pages 37–44, Istanbul, Turkey. ELRA, European Language Resources Association.
Výzkum rané dětské syntaxe a korpus Lucie Saicová Římalová [email protected] Výzkum rané dětské řeči nepatří v současné české lingvistice k tématům centrálním, přesto však může nabídnout řadu zajímavých teoretických podnětů souvisejících s pozorováním jazyka, který je „v pohybu“, v procesu osvojování. Příspěvek se věnuje jedné z těchto podnětných oblastí - otázce, jak vymezit ranou dětskou syntax do přibližně tří let věku dítěte, kterým jevům v jejím rámci věnovat pozornost a jaký materiál pro tuto analýzu zvolit. Na materiále prvních stádií syntaxe u česky hovořících zdravých monolingvních dětí ukazuje, jaké vlastnosti by měl mít „ideální“ korpus, o nějž by se mohl výzkum podobného tématu opřít (šířeji přístupný korpus využitelný pro analýzu projevů česky hovořících dětí daného věku v současnosti neexistuje). Zároveň naznačuje, proč je tento ideál zřejmě obtížně dosažitelný. Práce vychází z přesvědčení, že při analýze rané dětské syntaxe je třeba brát v úvahu skutečnost, že rané dětské projevy jsou ovlivněny tím, jakého stupně psychického (psychomotorického) vývoje dítě dosáhlo a nakolik si již osvojilo jazyk, popř. další komunikační kompetence. S těmito faktory je pak mj. spojena míra vázanosti dětských výpovědí na aktuální kontext („tady a teď), komplexnost produkovaných struktur, míra zapojení prostředků jiných než jazykových či užívání rozmanitých znaků individuálních, nekonvencionálních. Uvedené souvislosti je potřeba zohlednit rovněž při volbě analyzovaného materiálu, jeho sběru a tvorbě případného korpusu. Autorka vychází ze zkušeností s vlastním longitudinálním výzkumem rané dětské řeči, který pracuje s videonahrávkami a jejich transkripty a metodologií sběru materiálu navazuje na slovenský výzkum vedený D. Slančovou (srov. např. Slančová, D. (ed.): Štúdie o detskej reči. Prešov 2008).
Korpusový výzkum nerovnocenné sufixace deverbativních sloves v litevštině Eva Seitlová [email protected] V příspěvku představíme jednu část litevské derivace, a to deverbativní slovesa odvozená pomocí sufixů. Litevské sloveso disponuje třemi základními kmeny – infinitivním, prézentním a préteritním. Při tvoření nových sloves pomocí sufixace bychom očekávali, že se sufix projeví ve všech těchto kmenech, a opravdu například u desubstantivních a deadjektivních odvozenin tomu tak skutečně je. U deverbativních odvozenin se však vyskytují dvě varianty sufixace, v nichž se sufix vyskytuje buď (a) ve všech třech kmenech litevského
49
slovesa, nebo jen v některých (b), a to (b1) ve dvou, v infinitivním a préteritním, či dokonce pouze (b2) v jednom, infinitivním. Referát pojímáme jako součást většího celku korpusového výzkumu derivovaných sloves v litevštině vůbec, v příspěvku se zejména z časových důvodů zaměříme pouze na dva sufixy. Prvním je sufix -ėti, jež se vyskytuje ve variantě rovnocenné sufixace -ėti, -ėja, -ėjo a ve variantě sufixace nerovnocenné -ėti, -i, -ėjo. Nerovnocenná sufixace náleží zároveň do prvního podtypu (b1), v němž se sufix projevuje jak v kmeni infinitivním, tak i v kmeni préteritním. Druhým je sufix -yti, jež se vyskytuje ve variantě rovnocenné sufixace -yti, -ija, ijo a ve variantě sufixace nerovnocenné -yti, -o, -ė. Tato druhá varianta náleží zároveň do druhého podtypu (b2), v němž se sufix projevuje pouze v kmeni infinitivním. Naše snaha popsat tuto nerovnocennou derivaci podrobněji, než jak je tomu v gramatikách, a zároveň zjistit, jaká je distribuce jedné i druhé varianty, vychází z textového zkoumání, jež se opírá o korpus litevštiny, z něhož je snadno rozpoznatelná produktivita jednotlivých variant a zároveň zastoupení sloves, která se mohou odvozovat oběma zmíněnými variantami. Veškeré příklady jsou pro snadnou orientaci opatřeny českým překladem.
Interdeklinační tendence mezi typy „žena“ a „růže“ jako příklad periferie morfologického systému Kamila Smejkalová [email protected] Příspěvek se zabývá pohybem feminin mezi deklinačními typy „žena“ a „růže“, jak jej lze vysledovat v současné češtině pomocí ČNK a internetových vyhledávačů. Srovnává současný stav s popisem v dosavadních jazykových příručkách a zaměřuje se na několik aspektů: 1) Zda je vývoj v této oblasti jednosměrný a projevuje se příklon pouze k jednomu deklinačnímu typu; 2) zda je situace u všech zkoumaných feminin stejná, nebo se mezi nimi objevují rozdíly a v čem tyto rozdíly spočívají, např. liší-li se apelativa a propria, zda je situace odlišná v závislosti na zakončení tvarotvorného základu apod., zda hraje roli frekvence v úzu a lexikální význam zkoumaných feminin; 3) zda se projevují rozdíly v inklinaci k určitému typu také mezi jednotlivými pády či mezi plurálem a singulárem. Výsledky jsou analyzovány ve vztahu k problematice systémové vágnosti a ke konceptu centra a periferie jazykového systému. Zároveň tato analýza přináší poznatky i o samotném nástroji, pomocí něhož byla provedena, a součástí příspěvku je tedy i srovnání ČNK a internetových vyhledávačů a porovnání výsledků, které byly pomocí nich získány.
Vzťah morfematickej a derivačnej štruktúry v Slovníku koreňových morfém slovenčiny a jeho reflexia v Slovenskom národnom korpuse Miloslava Sokolová, Martina Ivanová [email protected] V štúdii sa skúma vzťah medzi morfematickou a derivačnou štruktúrou v lexémach zo Slovníka koreňových morfém slovenčiny (3. vyd., 2012). Vo väčšine prípadov je tento vzťah harmonický (rozšírená stupňovitá vzostupnosť morfém o jednu morfému a jeden význam). Pri asymetrii, ktorá vzniká narušením rozšírenej stupňovitej vzostupnosti o jeden význam a jednu morfému medzi motivantom a motivátom, a to rozširovaním alebo redukovaním segmentov,
50
analyzujeme typy a zdroje tejto asymetrie. Asymetria medzi morfematickou a derivačnou štruktúrou je funkčná. Asymetriu spôsobenú rozšírením aj trunkáciou často sprevádza expresivita, okrem toho asymetria vzniká pri analogickom vyrovnávaní morfematickej štruktúry a pri trunkácii či redukcii segmentov. Medzi domácimi motivátmi s pravidelnou morfematickou štruktúrou a prevzatými motivátmi či reduplikovanými motivátmi s nepravidelnou morfematickou štruktúrou vzniká konkurencia, ktorá sa v jazyku funkčne využíva. Túto konkurenciu budeme skúmať na základe dát zo Slovenského národného korpusu.
Corpus-based analysis of speech acts in Polish Internet Chats Leszek Szymański [email protected] The aim of this paper is to discuss a nominalization tendency realized in certain speech acts, which the author discovered in research conducted on Polish chat room conversations. The investigation to be presented arose as part of a large study of Internet chat room communication. The said study was conducted with the use of corpus linguistics methodology. For the purpose of this study, the author created a corpus of Internet text-based chats. These were conversations held in the main chat window recorded between: February 20, 2004 and March 27, 2006. After certain processing of the received language material, the author arrived at a corpus of human communication in a Polish Internet text-based chat consisting of 1,629,823 words. Having studied the chat room lexis, especially lexical items used in selected speech acts (greetings, farewells, thanks and apologies), the author observed a number of word-formation process. In this article, he would like to present one of the tendencies, namely nominalization. The author's observations allow ed him to draw a conclusion that Polish Internet chatters feel a need to realize speech acts with the use of nouns. The article (and the presentation) is designed to be divided into seven parts (for the time being). As an introduction to the topic, short notes on speech acts and nominalization are intended. Then, a brief description of the corpus material is to appear. This is to be followed by corpus-based material interpretation; of course, with the presentation of the statistical information obtained from the corpus. These are to concern the grammatical categories of the created nominal forms of gender and number. After that, certain semantic interpretations of the nominal forms in the chat room context are to be presented. The article is to be summed up with certain final conclusions wrapping up the discussed problem.
Deadjektivní deriváty v češtině jako deriváty syntaktické vs. lexikální Magda Ševčíková [email protected] Slova odvozená od adjektiv představují zajímavý, reprezentativní vzorek slovotvorných derivačních procesů v češtině: patří ke slovním druhům substantiv, adjektiv, sloves a adverbií, vzájemně se liší v řadě aspektů, mimo jiné z hlediska sepjetí jejich lexikálního významu s významem slovotvorným (Dokulil 1962, 1978, Dokulil a kol. 1986, Štekauer 2005). V příspěvku probereme možnost třídění deadjektivních derivátů právě z hlediska jejich vztahu k základovému adjektivu, pracujeme přitom s Kuryłowiczovou (1936) koncepcí derivace
51
syntaktické a lexikální, která je v Dokulilových slovotvorných pracích reflektována. Zatímco syntaktický derivát vyjadřuje stejný lexikální význam jako slovo základové, liší se od něj větněčlenskou funkcí, lexikální derivát se liší významově a stává se samostatnou lexikální položkou ve slovníku. Při aplikaci Kuryłowiczovy teorie na konkrétní deadjektivní deriváty je nutné se vyrovnat např. se skutečností, že některé deriváty nejsou výsledkem jediného typu derivace, ale kombinace obou uvedených derivačních typů. Z klasifikace deadjektivních derivátů jako syntaktických nebo lexikálních vyvodíme přímé důsledky pro zachycení těchto slov v hloubkověsyntaktické anotaci Pražského závislostního korpusu. Syntaktické deriváty je možné reprezentovat základovým adjektivem, protože jeho odlišná syntaktická funkce je v tomto syntakticky anotovaném korpusu zachycena speciálním atributem. Oproti tomu lexikální deriváty se budou od svého základového slova lišit lexikální hodnotou. Navrhované řešení má být schopno reflektovat např. nevyhraněné syntaktické užívání některých deadjektivních adverbií s příponou -e a jejich protějšků na -o; užívání těchto adverbií doložíme autentickým materiálem z Českého národního korpusu a Pražského závislostního korpusu (př. ve středu bude deštivo vs. léto začalo deštivě, je tam draho / v Praze je draze vs. draho / draze prodal). Literatura: Dokulil, M. (1962): Tvoření slov v češtině 1: Teorie odvozování slov. Praha: Nakladatelství ČSAV. Dokulil, M. (1978): K otázce prediktability lexikálního významu slovotvorně motivovaného slova. Slovo a slovesnost, 39, s. 244–251. Dokulil, M. – Horálek, K. – Hůrková, J. – Knappová, M. – Petr, J. a kol. (1986): Mluvnice češtiny 1. Fonetika, fonologie, morfonologie a morfematika, tvoření slov. Praha: Academia. Kuryłowicz, J. (1936): Dérivation lexicale et dérivation syntaxique. Bulletin de la Société de linguistique de Paris, 37, pp. 79–92. Štekauer, P. (2005): Meaning Predictability in Word Formation: Novel, context-free naming units. Amsterdam – Philadelphia: John Benjamins Publishing Company.
Nárůst nepravidelného tvoření slov: o čem svědčí? Josef Šimandl [email protected] Nepravidelnost je sice menšinový a periferní, ale integrální rys slovotvorného systému (šíře ovšem i systému jazyka) a zejména nesystémových periferií slovotvorby. Na ty se v příspěvku soustředí pozornost. Představíme pokusy vypořádat se s tzv. zvláštními způsoby v popisech tvoření slov a připomeneme zdařilý pokus o zhodnocení místa, které nepravidelnosti získaly vývojem jazyka a které jim přísluší v jazykové komunikaci. Pomocí příkladů z jazykové praxe přiblížíme případy unikátně tvořených slov i rýsujících se dalších, dosud pro češtinu velmi málo popsaných slovotvorných typů. Vysvětlíme si, z čeho usuzujeme na celkový nárůst nepravidelného tvoření slov v dnešních textech. Nakonec zvážíme možnosti objektivního ověřování hypotéz, jak početné (a jak významné, což není totéž) jsou nepravidelně vytvořená slova v elektronických textech, které jsou kvantifikaci přístupné – totiž v korpusech.
52
Predložky kvôli/kvůli a pre/pro v systéme a v použití (na materiáli slovenského a českého jazyka) Mária Šimková [email protected]
Predložkový systém v oboch jazykoch sa dlho považoval za veľmi stabilný, osobitne to platilo pre primárne predložky. Posledné desaťročia priniesli výrazné zvýšenie dynamiky slovnej zásoby a miestami aj gramatiky vrátane zvýšeného nárastu sekundárnych predložiek a teoretického záujmu o ne, ale okrem toho aj (najmä v slovenčine) preskupovanie niektorých významov/použití primárnych predložiek. Tento proces sa v slovenčine osobitne dotkol primárnej predložky pre a s ňou čiastočne synonymnej sekundárnej predložky kvôli. Odporúčania na ich správne používanie boli odôvodňované vo viacerých štúdiách a krátkych popularizačných príspevkoch. Cieľom nášho vstupu do problematiky je zhrnúť teoretické prístupy k uvedeným dvom predložkám a analyzovať ich reálne používanie v textoch národných písaných a hovorených korpusov i paralelného slovensko-českého korpusu z aspektu synchrónnej dynamiky.
Jak následovat Miloše Dokulila František Štícha [email protected] Zatímco bází pro inventarizaci slovotvorných derivátů byly pro Miloše Dokulila slovníky češtiny (Jungmann, PSJČ, SSJČ), pro nás, jeho pokračovatele, jsou touto bází velké elektronické korpusy. Zatímco bází pro inventarizaci slovotvorných sufixů byly pro Miloše Dokulila výkladové a retrográdní slovníky, pro nás je jí Dokulilova tabulka na s. 742-769 v knize TSČ 2, Odvozování podstatných jmen. Zatímco Miloš Dokulil se musel spokojit s přejímáním frekvenčních, stylových, regionálních a dobových charakteristik derivátů z existujících slovníků, my můžeme díky korpusům studovat obecnou i speciální frekvenci a s ní i žánrovou distribuci kteréhokoli elementu slovotvorného systému. Zatímco Miloš Dokulil mohl na bázi slovníkového materiálu formulovat teoretické základy studia systémové produktivity slovotvorných formantů a slovotvorných typů, my můžeme díky korpusům zkoumat, jaká je míra realizace určitých strukturních předpokladů v parole naší doby. Teorie odvozování slov Miloše Dokulila poskytuje korpusovému výzkumu tvoření slov mnoho inspirace. Za všechny její zdroje uvádím tento citát: „Čím širší a rozmanitější jsou strukturní souvislosti slovotvorného prvku, tím více je předpokladů pro jeho produktivitu.“ (TSČ 1, 85; tučně FŠ) Existence elektronických korpusů umožňuje hledat odpovědi na následující obecnou otázku: Jaká je míra realizace určitých strukturních předpokladů v parole naší doby?
53
Is a new classification of Czech compounds possible? Pavel Štichauer [email protected] Word-formation in Czech has been almost exclusively studied within the onomasiological approach closely tied up with the name of Miloš Dokulil, to whom this 4th conference Grammar and Corpora is dedicated on the occasion of his 100th anniversary. As is well known, Dokulil’s main research interest was connected with derivation rather than with compounding, since the latter has been considered to be a marginal wordformation process in the present-day Czech (cf. Dokulil 1962, 1986). This is wittnessed also by the fact that, over the past years, compounding has been the subject of a limited series of articles or even monographs (cf. Bozděchová 1994 and recently Mitter 2003, 2006). However, these studies merely bring together some new data (offered, mainly, by corpora) without departing significantly from the original onomasiological framework. No classificatory innovation seems to modify radically the traditional approach. What I wish to do in this lecture is to look at the Czech compounds from an entirely different perspective – through the eyes of a linguist who is not primarily a “bohemist” and whose ambition is a (tentative) cross-linguistic comparison of word-formation processes. My aim is to put forward one concrete proposal of the classification of compounds which is not restricted to one single language. It stems from a project analyzing a large database of compounds at the university of Bologna where about twenty languages are represented - including Czech (cf. Štichauer 2009). The lecture will thus offer an overview of Czech compounding based on the classification put forward by Sergio Scalise and Antonietta Bisetto (cf. Bisetto - Scalise 2005; Scalise - Bisetto 2009). The classification is based on the combination of two hierarchical levels of analysis. The upper level divides the compounds according to the grammatical (or syntactic) relation between the constituents into coordinate, subordinate and attributive structures. The lower level splits each of the three “macrotypes” into the endocentric and exocentric compounds (on the basis of the presence / absence of a head). It is only at this point where the different lexical categories enter the scheme giving rise to various combinations (such as A + N, V + N and so on). Against the background of such a classification, which is in some important respects divergent from the onomasiological approach – and into which I will attempt to fit the Czech data, I intend also to dwell on two special cases: first, on the so-called parasynthetic compounds of the type modrooký, vysokoškolský, bezvětří, nosorožec and others, whose morphological nature is beyond any question, and second, on the so-called juxtapositions (spřežky), such as pomstychtivý or smysluplný, which are usually left aside within the onomasiological framework. The two special cases are, in fact, particularly focalised in the current morphological theories. On the one hand, the ternary structure of parasynthetic compounds is something the binary-oriented morphology does not like to deal with (srov. Bisetto - Melloni 2008); on the other hand, the question of internal inflection is similarly challenging – if, in fact, we adopt any principle of lexical integrity, the possibility of compound-internal inflection should be ruled out. My aim is not to come up with a new classification within which Czech data could be comfortably accomodated, but rather to show how different theoretical frameworks dictate the sort of questions and answers that are subsequently considered to be reasonable and justified...
54
Bibliografie / References Bisetto, A. & Melloni, C. (2008). Parasynthetic compounding. Lingue e Linguaggio, VII(2), 233-259. Bisetto, A. & Scalise, S. (2005). The classification of compounds. Lingue e Linguaggio, IV(2), 319-332. Bozděchová, I. (1994). Tvoření slov skládáním. Praha: ISV Dokulil, M. (1962). Tvoření slov v češtině 1. Teorie odvozování slov. Praha: Academia. Dokulil, M. (1986). Tvoření slov. In Petr, J. (eds.), Mluvnice češtiny 1 (pp. 451-486). Praha: Academia. Grzega, J. (2009). Compounding from an onomasiological perspective. In R. Lieber & P. Štekauer (eds.), The Oxford Handbook of Compounding (pp. 217-232). Oxford: Oxford University Press. Mitter, P. (2003). Složená hybridní substantiva s prvním komponentem cizího původu v současné češtině. Ústí nad Labem: Univerzita J. E. Purkyně v Ústí nad Labem. Mitter, P. (2006). Kompozice v kontextu současné češtiny. Ústí nad Labem: Univerzita J. E. Purkyně v Ústí nad Labem. Scalise, S. & Bisetto, A. (2009). The classification of compounds. In R. Lieber & P. Štekauer (eds.), The Oxford Handbook of Compounding (pp. 34-53). Oxford: Oxford University Press. Štichauer, P. Compounds in Czech. Lingue e Linguaggio, VIII(2), 293-314.
Morfologické značkování korpusů Pavel Šturc, Květa Mrštíková [email protected], [email protected] Cílem našeho příspěvku je zachytit rozdíly ve značkování mezi pražským a brněnským agsetem a vystihnout případy nekorektní disambiguace morfologických značkovačů Morče Raab, 2007, http://ufal.mff.cuni.cz/morce/), Feature-based taggeru (Hajič, 2004, ) a Hidden Markov Model (HMM) taggeru (Krbec, 2005, http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Tagging/MM_tagger/). Při práci s korpusem se často spoléhá na strojové označkování textu a vychází se z něj jako ze správné varianty, která je ovšem ne vždy korektní. V této práci je k porovnání použit text, který byl označkovaný brněnským taggerem Desamb a poté ručně upraven. Využitím dat tohoto textu, čítajícího zhruba 10 000 tokenů, bylo možné některé tyto chyby a nejasnosti zachytit a dále s nimi při následné analýze pracovat. Vzhledem k užití obou již zmíněných tagsetů vznikl podrobný přehled odlišností a chyb, jejichž analýzou bylo zjištěno několik více či méně závažných „provinění” strojového značkování. Princip pražského a brněnského značkování je do jisté míry obdobný, odlišnostmi jsou pouze některé značky, které nesou svůj speciální význam. V brněnském tagsetu nalezneme tyto významně se lišící značky: „kA” (tag pro zkratky), „kY”(tag pro slovesný tvar s hodnotou kondicionálu). Pražský tagset obsahuje jedinou „neznámou” značku, kterou je „@” sloužící pro označení těch gramatických kategorií, které tagger nebyl schopen určit jednoznačně. Dalším bodem, kterým se práce zabývá je problém při značkování pádů. Taggery velmi často trápí homonymie koncovek daného slova v různých pádech. V případech, kdy není možné určit pád ani pomocí předložky před slovem, ani pomocí slovního okolí, tedy je možné jej rozpoznat pouze z kontextu předchozích vět, tagger „sahá” po nejpravděpodobnější možnosti. Konkrétně se jedná o záměnu akuzativu s nominativem a lokálu s dativem. Velmi častá je také chybovost při určování lemmat. V mnoha případech tagger buď nemá
55
slovo užité v textu ve své databázi, tedy přiřadí si jej k nejvhodnějšímu deklinačnímu vzoru a zlemmatizuje ho na jakýsi „patvar”, nebo v případě nejistoty správného slovního druhu u daného slova narazí na homonymii, která je taktéž hlavní příčinou chybování desambiguátorů. V této práci jsou výsledky desambiguace zhodnoceny a k případům, které jsou pro značkovače obtížné a ke kterým nebylo doposud možné vytvořit jasná pravidla, jsou navržena více či méně možná řešení.
Paradigmatické a syntagmatické aspekty současné české vojenské terminologie a její invaze do publicistického stylu Jana Tomšů [email protected] Jakými lingvistickými charakteristikami se vyznačuje současná česká vojenská terminologie? Jak oscilují termíny mezi odborným vyjadřováním a běžnou mluvou? Vybraný vzorek cca 3000 termínů byl lingvisticky analyzován z hlediska paradigmatických a syntagmatických aspektů jejich slovotvorby. Paradigmatické aspekty byly pojímány v širším slova smyslu včetně metaforického a metonymického transferu a přejetí cizích slov. Syntagmatický aspekt tvorby termínů z hlediska motivace byl sledován na základě slovotvorných způsobů realizace jednoslovných termínů (derivace, kompozice, abreviace) a vícečlenných termínů (kolokace). Hlavní pozornost byla věnována víceslovným termínům z důvodu jejich dominantního zastoupení ve zkoumaném vzorku. Struktura sledovaných kolokačních termínů se pohybuje v rozmezí dvou až devítičlenných kolokací a odráží pojmovou členitost a hierarchizaci jimi pojmenovaného obsahu. Kolokační termíny byly rozděleny podle sémanticko-syntaktického typu struktury na determinační a koordinační a byly dále podrobněji analyzovány z hlediska jejich stavby. Součástí analýzy bylo i srovnání užití termínů jako prostředků odborného vyjadřování s jejich užitím v publicistickém stylu, kde často nabývají hodnotu neodborného vyjadřování. Pro toto porovnání byl využíván Český národní korpus (Syn Pub 2009).
Pluri-Regional German Grammar: A Corpus based Approach Simone Ueberwasser [email protected] German is known to be a heterogeneous standard language which shows variation between and within its three main centers: Germany, Austria and Switzerland. Most studies about this pluri-regional language use focus on differences on the phonetic or lexical level, while grammar has mostly been ignored. The aim of the project 'Variantengrammatik des Standarddeutschen' (‘Pluri-Regional Grammar of Standard German’)is to bring to light the actual grammatical variation and eventually document it in a reference grammar. Differences in language use can be found among others in the fields of word-formation, morphology, inflection, valency and wordorder. In many cases it is only the frequency in the use of one or the other variant that differs. However, there are also phenomena which are literally unknown in one region but frequent or even the norm in another. Empirical research in the context of this project will be both corpus-based and corpusdriven and based on an annotated corpus generated from 57 regional newspapers (about 28 Mio words). Creating our own corpus rather than relying on existing ones allows us to use
56
data from wide range of newspapers from all German-speaking regions and not only from the major cities. The corpus-based work will start from a list of phenomena found in existing grammars or observed by search assistants who systematically read newspapers from regions other than their own. The corpus-driven approach will be focused on n-gramms and grammatical patterns in the annotation.
Učebnicový korpus a jeho využití pro výuku češtiny jako cizího jazyka Pavlína Vališová [email protected] Cílem tohoto příspěvku je představení malého projektu v rámci doktorské práce, čímž je vytvoření korpusu z učebnic češtiny jako cizího jazyka, dále popis způsobu jeho pedagogické anotace, a především různých možností jeho využití. Plánovaný český učebnicový korpus by měl zahrnovat asi 20 současných učebnic češtiny jako cizího jazyka úrovně A1 až B1, včetně cvičebnic. Nejdříve je nutné učebnice oskenovat, poté zkonvertovat z formátu pdf do formátu txt a následně vyčistit od obrázků, čísel stran apod. Pak je možné korpus ručně označkovat. Typ pedagogické anotace se metodicky se opírá o pedagogický korpus TeMa, korpus učebnic obecné angličtiny vytvořený na Univerzitě v Lovani (Gouveneur a Meunier, 2009). Tento korpus je rozdělen na čtyři základní subkorpusy, texty, poslechy (přepisy nahrávek), cvičení a instrukce. Cvičení jsou dále označkována podle typu: doplňování, spojování apod. V rámci této anotace je samozřejmě zahrnuta i správná odpověď. Učebnicový (nebo pedagogický) korpus patří mezi malé specializované korpusy. Cíle může mít různé, a to podle výběru a typu učebnic, které obsahuje. Pokud například zahrnuje učebnice, které se opírají o různé výukové metody, může se zkoumat, jak tyto metody ovlivňují výběr slovní zásoby. V zásadě rozlišujeme dvě možnosti využití učebnicového korpusu: deskriptivní a didaktické. Mezi první patří popis učebnicového jazyka jako specifického typu češtiny. Při použití kvantitativních metod lze spolehlivě popsat např. rozdíly mezi slovní zásobou na nižší a vyšší úrovni nebo klíčová slova. Také lze zjistit, na jaké gramatické jevy je kladen důraz a které se naopak procvičují nedostatečně. Kvalitativní analýzou je možné zkoumat různé části učebnic, jako jsou texty, poslechy, gramatické výklady, různé typy cvičení či instrukce a používanou terminologii, neboť korpus umožňuje vytvořit subkorpusy zahrnující určité tematické části učebnic. Druhá možnost využití korpusu se týká didaktické aplikace. Díky datům z učebnicového korpusu lze navrhnout zlepšení pomocí současných korpusů, ať již obsahující texty rodilých nebo nerodilých mluvčích (v tomto případě ČNK a CzeSL).
K morfologické kategorizaci českých evaluativních výrazů Kateřina Veselovská [email protected] Příspěvek bude věnován počátkům výzkumu v oblasti postojové analýzy ([3]) na českém materiálu, přesněji se chceme věnovat morfologické kategorizaci českých evaluativních výrazů na základě dat z nově vytvořeného korpusu SubLex1.0 ([5]) a Českého národního korpusu ([2]). Postojová analýza se zabývá možnostmi automatické extrakce subjektivní
57
informace z textu. Jedním z jejích hlavních cílů je detekce hodnotících výrazů, tedy slov a frází, které inherentně obsahují pozitivní nebo negativní hodnocení (viz také [6]). Aby bylo možno využívat tyto klíčové výrazy např. při automatickém rozpoznávání větné polarity, je nutno je nejdříve manuálně roztřídit a prozkoumat jejich vlastnosti z jazykovědného hlediska. V této studii využíváme jako hlavní zdroj hodnotících výrazů slovník SubLex1.0 získaný automatickým překladem části amerického korpusu MPQA ([4]) za využití českoanglického paralelního korpusu CzEng ([1]) a obohacený o ručně anotovaná data ze serveru Aktuálně.cz. Po manuálním pročištění slovníku jsme získali 4950 lemmat, která jsme roztřídili podle jejich slovnědruhové příslušnosti. Nejfrekventovanějším slovním druhem ve slovníku jsou substantiva (např. hlupák apod., 1954 výskytů) následována slovesy (např. kazit, 1698 výskytů), adjektivy (např. špatný, 819 výskytů) a adverbii (např. bezostyšně, 465 výskytů). Následně jsme porovnali vybrané položky ze slovníku SubLex s materiálem v Českém národním korpusu, abychom zjistili, zda nejzastoupenější slovní druhy mají na celkovou polaritu dané věty největší vliv. Analýza korpusového materiálu však takovouto hypotézu vyvrátila. Z dosavadního průzkumu vyplývá a) že částice mají na celkovou polaritu věty větší vliv než jiné slovní druhy (1); b) přestože jsou slovesa méně frekventovaná, z hlediska větné polarity jsou silnější než substantiva, zejména pak v pozici hlavního predikátu (2); nebo c) že adverbia či adjektiva mají na větnou polaritu také větší vliv než substantiva (3). (1) Bohužel, bratr odvedl dobrou práci. (2) Mám toho hulváta rád. (3) Bylo to příjemné nedorozumění. Tento příspěvek má dvojí cíl. (i) Chceme prozkoumat vztah mezi slovnědruhovou platností českých evaluativních výrazů uložených ve slovníku SubLex1.0 a jejich vlivem na větnou polaritu. (ii) Jsme si vědomi skutečnosti, že pro výslednou polaritu dané věty je důležitá také větněčlenská platnost jednotlivých hodnotících výrazů. Chceme proto prozkoumat evaluativní výrazy vzhledem k jejich funkci ve větě, případně ve vztahu k negaci. [1] Bojar, O. a Žabokrtský, Z. CzEng: Czech-English Parallel Corpus, verze 0.5. Prague Bulletin of Mathematical Linguistics, 86, Prague 2006. Dostupný z http://ufal.mff.cuni.cz/czeng/. [2] Český národní korpus - SYN2005. Ústav Českého národního korpusu FF UK, Praha 2005. Dostupný z WWW: . [3] Liu, B. "Sentiment Anlaysis and Subjectivity". Kapitola v knize Handbook of Natural Language Processing, Second Edition. Marcel Dekker, Inc: New York, 2009. [4] MPQA Subjectivity Lexicon. Dostupný z http://www.cs.pitt.edu/mpqa/subj_lexicon.html. [5] Veselovská, K. a Bojar, O. SubLex: korpus českých evaluativních výrazů, verze 1.0. Připraveno k vydání, Praha 2012. [6] Wiebe, J., T. Wilson, R. Bruce, M. Bell and M. Martin. Learning subjective language. Computational Linguistics, 30, 3, 2004.
58
Relativní místní adverbia v apoziční skupině Vojtěch Veselý [email protected]
Mezi složkami apoziční skupiny lze určit buď jediný izotropní významový vztah (predikaci, nebo determinaci), nebo dva protisměrné izotropní významové vztahy, které jsou buď stejného druhu (predikace x predikace, determinace x determinace), nebo různého druhu (predikace x determinace). Realizace těchto vztahů je ovlivněna činitelem formálním, tj. lineárním a intonačním ztvárněním apoziční skupiny. Predikace může být orientována regresivně i progresivně, determinace pouze regresivně, pokud postponovaná složka apoziční skupiny není tvořena výrazem významově nesamostatným, např. relativním adverbiem. Referenční vztah mezi složkami apoziční skupiny lze interpretovat ve smyslu protikladu třída / část třídy – prvek/prvky této (části) třídy. Apoziční skupiny, jejichž složky jsou tvořeny adverbiálními určeními s různou extenzí, takovou interpretaci neumožňují. Lineární pořadí složek bývá u tohoto typu závazné (v Praze v Karlíně, včera večer), pokud některá ze složek není tvořena relativním místním adverbiem (vlevo, nahoře aj.). Tato adverbia determinují buď (vyjádřený či nevyjádřený) vymezený prostor nebo (vyjádřený či nevyjádřený) prostorový orientátor; v druhém případě se funkčně přibližují předložkám. Literatura: Čechová, M. (ed.). Čeština – řeč a jazyk. Praha: ISV, 2000. Daneš, F.; Hlavsa, Z.; Grepl, M. (eds.). Mluvnice češtiny 3. Praha: Academia, 1987. Grepl, M.; Karlík, P. Skladba češtiny. Olomouc: Votobia, 1998. Hlavsa, Z. Denotace objektu a její prostředky v současné češtině. Praha: Academia, 1975. Hlavsa, Z. Přístavkový vztah a popis české skladby. Slovo a slovesnost. 1986, roč. 47, s. 186– 192. Hrbáček, J. Pokus o výklad přístavkového vztahu. Slovo a slovesnost. 1972, roč. 23, s. 223– 228. Karlík, P.; Nekula, M.; Pleskalová, J. (eds.). Encyklopedický slovník češtiny. Praha: Nakladatelství Lidové noviny, 2002.
Maskulinní deminutiva v současné češtině Markéta Ziková [email protected] Tento příspěvek se zabývá maskulinními deminutivy v současné češtině. Jeho cílem je na základě korpusových dat doplnit a/nebo revidovat jejich existující analýzy. V MČ I (1986:301n.) se o maskulinních deminutivech říká, že a) distribuce sufixů -ek a -ík je náhodná, a proto ji nelze „postihnout nějakým pravidlem“, c) sekundární deminutiva jsou synchronně derivována sufixy -eček a -íček, jež se připojují k základovému slovu (sud > soudeček, les > les-íček), c) při derivaci někdy dochází k dloužení vokálu v základovém slově (roh > růž-ek) a někdy naopak k jeho krácení (dům > dom-ek). Pokud jde o sufixy -ek a -ík, analýza primárních deminutiv získaných excerpcí ze subkorpusů ČNK ukazuje, že distribuce druhého z nich je ve většině případů vázána fonologicky. Sufix -ík se například pravidelně váže na kořeny zakončené na CL: obr > obř-ík, fotr > fotř-ík, pudl > pudl-ík, sokl > sokl-ík; viz též Cuřín (1966), TSČ II (1967:494-530). Pokud jde o sekundární deminutiva, uvedu tři nezávislé argumenty pro to, že i ze synchronního pohledu jsou eček a íček výsledkem derivace, tedy výsledkem spojení dvou
59
samostatných sufixů (-ek + -ek > -eč-ek, -ík + -ek > -íč-ek). Jedním z nich je zcela ojedinělý výskyt smíšených dvojic typu -ek : -íček a -ík : -eček oproti produktivním dvojicím -ek : -eček a -ík : -íček. Kdyby byly -eček a -íček samostatnými sufixy, pak bychom očekávali, že jejich distribuce bude zcela nezávislá na podobě primárního deminutiva; srov. Ziková (2009). Pokud jde o chování vokalické délky, jen sufix -ek ovlivňuje kvantitu vokálu v základu (a to jak u primárních, tak i u sekundárních deminutiv). Scheer (2004) vysvětluje rozdílný vliv sufixů -ek a -ík na kvantitu tím, že maskulinní deminutiva mají v češtině status tzv. templatické kategorie. Ve svém příspěvku ukážu, že doménu templátu, který je u maskulinních deminutiv definován jako minimálně 3morový, tvoří poslední slabika základu a první deminutivní sufix. Sufix -ek je 1morový (krátké vokály a slabičné konsonanty mají hodnotu jedné mory, dlouhé vokály a diftongy dvou mor), proto se vokál před ním dlouží, tj. stává se 2morovým: dar > [dár-ek 3m]. Sufix -ík je naopak 2morový, a proto poslední vokál základu nemá důvod, aby se v jeho kontextu dloužil: čaj > [čaj-ík 3m]. Součástí představené analýzy bude typologie výjimek, které templatické omezení nerespektují a k nimž patří i výše zmíněný typ dom-ek.
60
Rejstřík Martin Beneš Tilman Berger Jana Bílková Ivana Bozděchová Katja Brankačkec Alena M. Černá Václav Cvrček Mojmír Dočekal Thomas Egan François Esvan Katarína Gajdošová Markus Giger Bohuslava Golčáková Svetlana Gorokhova Marek Grác Anne-Line Graedler Milada Hirschová Zdeňka Hladká Dana Hlaváčková Milena Hnátková Jana Hoffmannová Andrea Hudousková Martina Ivanová Ilya B. Itkin Andrey Izotov Tomáš Jelínek Lucie Jílková Tomáš Káňa Agáta Karčová Petr Karlík Jan Klaška Ivana Kolářová Veronika Kolářová Marek Konopka Lucie Kopáčková Pavel Kosek Jan Králík Daniela Majchráková František Martínek Michaela Martínková Marie Mikulová Kateřina Milotová Květa Mrštíková Květa Musilová Mira Nábělková Petr Nádeníček Renata Novotná Klára Osolsobě
2 2 3 4 4 5 5 6 7 9 9 10 11 12 38 13 14 14 37 15 15 16 49 17 17 19 19 20 20 21 22 15, 22 23 24 25 25 27 28 28 29 30 31 54 31 32 32 33 34
Jurgis Pakerys 36 Karel Pala 37 Helena Palátová 38 Jarmila Panevová 42 Pavel Pečený 38 Hana Peloušková 39 Svetlana I. Pereverzeva 17 Andrea Pešková 39 Vladimír Petkevič 41 Patrice Pognan 42 Anatoliy Polikarpov 43 Dmitrij Poljakov 43 Jan Pomikálek 43 Hana Prokšová 44 Gudrun Rawoens 7 Olga Richterová 45 Erika Rimkutė 36 Sylvi Rørvik 46 Alexandr Rosen 47 Lucie Saicová Římalová 48 Eva Seitlová 49 Soňa Schneiderová 14 Kamila Smejkalová 49 Miloslava Sokolová 49 Hana Strachoňová 6 Vít Suchomel 43 Leszek Szymański 50 Magda Ševčíková 50 Josef Šimandl 51 Mária Šimková 52 Jan Štěpánek 30 František Štícha 52 Pavel Štichauer 53 Pavel Šturc 54 Jana Tomšů 55 Margarita A. Tyurenkova 17 Simone Ueberwasser 55 Zdeňka Urešová 30 Andrius Utka 36 Pavlína Vališová 56 Kateřina Veselovská 56 Vojtěch Veselý 58 Pavel Vondřička 5 Ulrich Hermann Waßner 24 Markéta Ziková 21, 58