Masarykova univerzita Filozofická fakulta
Ústav českého jazyka Český jazyk a literatura
Šárka Mládková
Vyhledávání vybraných syntaktických struktur v korpusu mluvené češtiny Bakalářská diplomová práce
Vedoucí práce: Mgr. Dana Hlaváčková, Ph.D.
2012
Prohlašuji, že jsem bakalářskou práci vypracovala samostatně s využitím uvedených pramenů a literatury.
……….………………………
Poděkování Na tomto místě bych ráda poděkovala vedoucí mé bakalářské práce, Mgr. Daně Hlaváčkové, Ph.D., za odborné konzultace, cenné rady a především trpělivost a čas, který mi vždy ochotně věnovala.
Obsah Úvod .................................................................................................................................. 5 1. Syntax mluvených projevů ............................................................................................ 7 1.1 Mluvený a písemný projev ...................................................................................... 7 1.2 Syntaktické rysy mluveného projevu ...................................................................... 9 2. Využití korpusu při zkoumání češtiny ........................................................................ 13 2.1 Jazykový korpus v českém prostředí ..................................................................... 13 2.2 Historie mluvených korpusů ................................................................................. 15 2.3 Mluvený korpus ORAL2008 ................................................................................. 16 2.4 Tvorba mluveného korpusu ................................................................................... 17 3. Zásady přepisu ............................................................................................................ 18 4. Práce s korpusem a vyhledávání ................................................................................. 20 4.1 Nastavení korpusového manažeru a použité funkce ............................................. 21 5. Vyhledávání vybraných syntaktických struktur v korpusu ORAL2008 a výsledky vyhledávání ..................................................................................................................... 23 5.1 Tázací dovětky ...................................................................................................... 24 5.2 Opravy ................................................................................................................... 30 5.3 Typické vyjadřovací prvky spjaté s mluveností .................................................... 34 5.4 Opakování ............................................................................................................. 43 Závěr ............................................................................................................................... 57 Seznam použité literatury ................................................................................................ 60
Úvod Současný český mluvčí zná a využívá v každodenním běžně mluveném projevu více než jeden útvar národního jazyka, v mnoha případech tak vytváří projev, který je po stránce jazykové smíšený (mísí např. prvky dialektu a spisovné češtiny). Co je ale myšleno pojmy „běžně mluvený projev“ a „běžně mluvený jazyk“? Krčmová charakterizuje běžně mluvený jazyk jako soubor jazykových prostředků, které jsou užívány v neveřejných spontánních mluvených dialogických projevech (Krčmová, 1981, s. 10). Podle Müllerové jsou označení jako „běžná mluva“ a „běžně mluvený projev“ nevhodná a nejasná, navrhuje vhodnější dělení komunikace. Základní rozdíl vidí v komunikaci mluvené a písemné. Za nejdůležitější kritérium, podle kterého je možné specifikovat oblast mluvené komunikace, považuje dichotomii spontánnost/vázanost (Müllerová, 1994, s. 11). Právě jeden z těchto dvou krajních pólů je hlavním předmětem zkoumání v této práci. Jedná se o spontánní, přirozenou, volnou komunikaci, konkrétně o nepřipravené neoficiální rozhovory dvou a více lidí. Výzkum projevů tohoto typu byl zaměřen na syntax a byl prováděn prostřednictvím elektronicky zpracovaných přepisů mluvených rozhovorů. Soubory takových textů jsou obsaženy v mluvených korpusech. Cílem této práce bylo zjistit, jaké syntaktické konstrukce lze vyhledat v korpusu mluvené češtiny ORAL2008, a s využitím tzv. regulárních výrazů se pokusit zobecnit dotazy pro jejich vyhledávání. Vzhledem k tomu, že mluvený korpus není lemmatizovaný ani morfologicky označkovaný (otagovaný) a nelze v něm pracovat s klasickou větou (korpus obsahuje výpovědi, jejichž hranice jsou obtížně rozpoznatelné), nebylo možné některé syntaktické rysy mluvené češtiny vyhledat nebo zobecnit (viz kap. 5). Pro mou práci byl stěžejní korpus ORAL2008, kromě něj existují v současné době ještě další čtyři korpusy mluveného jazyka (ORAL2006, SCHOLA2010, Pražský mluvený korpus a Brněnský mluvený korpus). Korpus ORAL2008 jsem si vybrala z toho důvodu, že je nejaktuálnější. Nejnovějším mluveným korpusem je SCHOLA2010, jedná se však o korpus vyučovacích hodin, nikoli o korpus neformální mluvené češtiny. Těchto pět mluvených korpusů je součástí Českého národního korpusu, který je vytvářen Ústavem Českého národního korpusu. Pro práci s korpusem ORAL2008 byl využíván korpusový manažer Bonito, pomocí něhož byly vyhledávány jednotlivé syntaktické konstrukce. Jednalo se o konkrétní slova a slovní spojení, která byla vytipována předem
5
na základě příkladů uvedených v odborné literatuře1. Výsledky vyhledávání byly zaznamenány, zkoumán byl okolní kontext hledaných výrazů a jejich frekvence. Výsledky jednotlivých vyhledávání, které jsou uvedeny v této bakalářské práci, můžou využít všichni ti, kteří se zabývají syntaxí mluvených projevů nebo vyhledáváním v mluvených korpusech obecně. Některé zobecněné dotazy zveřejněné v kapitolách 5.1 a 5.4 mohou usnadnit práci při vyhledávání podobných dotazů v korpusech mluveného jazyka.
1
Jedná se o odbornou literatura, která byla použita pro tuto práci (viz Seznam použité literatury).
6
1. Syntax mluvených projevů V dřívějších letech se pracovalo především se syntaxí spisovného jazyka, u ostatních jazykových útvarů byl cíl zájmu zaměřen spíše na rovinu hláskoslovnou a morfologickou (Hausenblas, 1962, s. 313). Studium spisovného jazyka však nemůže poskytnout důležité informace o tom, v jakém stavu se nachází sféra mluvené komunikace. V posledních letech sice dochází k zaznamenávání mluveného jazyka častěji, doposud však není tato jazyková oblast prozkoumána v takovém rozsahu, jako je tomu u oblasti písemných projevů. Syntax mluvených projevů je obtížněji zkoumatelná, proto její popis probíhá pomaleji (srov. Krčmová, 1981). Müllerová se pozastavuje nad absencí knižní publikace v rámci české lingvistické literatury, která by se adekvátně věnovala popisu mluvených syntaktických jevů, především však projevům spontánním. Poukazuje také na to, že již v šedesátých letech 20. století vytyčil základní směr zkoumání a popisu výše zmíněných jevů Karel Hausenblas. Z jeho myšlenek se vychází dodnes (Müllerová, 1994, s. 15).
1.1 Mluvený a písemný projev Mluvená i psaná realizace jazyka jsou si rovnocenné co se týče schopnosti vyjádřit různá sdělení a myšlenky, obě jsou schopny plnit všechny funkce, které jazyk při každé komunikaci má, ať už jde o funkci referenční, výrazovou, estetickou, apelativní atd. Řeč psaná a i řeč mluvená jsou většinou realizací téhož národního jazyka. Oba typy projevů se však v mnoha aspektech odlišují (srov. Krčmová, 1996). Jedním ze základních rozdílů je způsob osvojení. Mluvit se člověk učí přirozenou cestou již v útlém věku tak, že napodobuje mluvu svého okolí. Psaný projev si člověk osvojuje později, musí se jej naučit. Mluvený projev je typický spíše pro soukromou komunikační sféru, naopak psaný projev je považován za nadčasový a přístupný celé společnosti. Co se týče vývoje psaného a mluveného jazyka, je výrazně snazší zkoumání projevu psaného, jelikož existuje mnoho jeho dokladů z historie. Mluvený projev nebylo možné až do konce 19. století zaznamenat. Pro vytváření psaného projevu platí v našem prostředí určitá pravidla, je kodifikován. Dalším základním rozdílem je dichotomie připravenost/nepřipravenost. Vytváření mluvených projevů probíhá ve většině případů spontánně, je nepřipravené, oproti tomu většina písemných projevů bývá připravených (srov. Krčmová, 1996).
7
V současné době však dochází stále více ke stírání rozdílů mezi psanou a mluvenou komunikací. To souvisí zejména s technickým rozvojem, který ovlivňuje společnost. Vznikají tak nové psané komunikáty (např. SMS zprávy, komunikace prostřednictvím e-mailů, konverzace na chatech, sociálních sítích atd.), které však vykazují i rysy mluvenosti. Takové komunikáty jsou obtížně zařaditelné. Proto Müllerová rozděluje komunikaci na písemnou a mluvenou; dále na mluvenou komunikaci, jejíž forma je písemná, a nakonec na psanou komunikaci, jejíž forma je mluvená (Müllerová, 1994, s. 11). „Písemný text autor vytváří jako sled jednotlivých vět. Obsah, který má na mysli, strukturuje do jednotlivých větných celků na základě znalosti syntaktických a morfologických pravidel jazyka.“ (Müllerová, 1994, s. 23) Lze říci, že autor písemného textu by měl při jeho tvorbě dodržovat určitá pravidla. Kromě obsahu sdělení je u psaného projevu důležitá i jeho forma a jeho výsledná grafická podoba, která souvisí s horizontálním a vertikálním členěním textu. Oproti tomu klade spontánní mluvený projev důraz více na obsah sdělení, forma vyjádření zůstává v pozadí. Mluvčí nemá čas na jeho formální a logické uspořádání a posluchač primárně vnímá sdělovaný obsah (Müllerová, 1994, s. 23). Mluvené projevy lze rozdělit na veřejné a soukromé. Mezi veřejné se řadí např. projev, proslov, přednáška, referát, přípitek, beseda, debata atd., k soukromým mluveným projevům patří např. běžné rozhovory v rámci rodiny, telefonické hovory s přáteli atp. Se soukromostí souvisí i dialogičnost (monologičnost je spíše výjimkou), běžný je rozhovor dvou a více partnerů, kteří si jsou sociálně rovni a jsou aktivní. Proti tomu stojí veřejný dialog, např. pracovní mezi nadřízeným a podřízeným. Díky dialogičnosti je možné nedokončit sdělení v okamžiku, kdy je jasné, že mezi jednotlivými mluvčími došlo k porozumění2 (Čechová, 2008, s. 196–200). V současné době lze vést dialog i v písemné podobě, a to prostřednictvím techniky, viz výše. Pro spontánní mluvené projevy je důležitá také emocionalita, která se může projevovat např. v oblasti morfologické nebo syntaktické. Tato práce se zabývá zkoumáním syntaxe mluvených spontánních projevů, které bylo provedeno prostřednictvím korpusu.
2
V tomto případě hrají důležitou roli neverbální prostředky komunikace.
8
1.2 Syntaktické rysy mluveného projevu Hausenblas vytyčuje specifické rysy, které jsou charakteristické pro mluvené vyjadřování a odlišují jej tak od vyjadřování písemného. Jedná se především o nonverbální typ komunikace, jako jsou gesta, mimika obličeje, oční kontakt, intenzita hlasu atd., z nichž Hausenblas věnuje pozornost prostředkům zvukovým. Za nejdůležitější pro syntax považuje především intonaci, pauzy a přízvuk (Hausenblas, 1962, s. 315–316). Dalším rysem je vázanost promluvy na čas a tempo, jde o tzv. moment mluvení (Hausenblas, 1962, s. 316). Nesmíme opomenout ani to, že písemné zpracování promluv bývá považováno za více závazné než běžná mluvená komunikace. Písemná komunikace je totiž vždy zaznamenaná, zatímco mluvená nikoliv (technika její zaznamenání sice umožňuje, ale je nemyslitelné zaznamenávat každý mluvený projev). Podle Hausenblase by měl výklad syntaxe mluvených projevů vycházet zejména z celkové výstavby projevu. Dále by se mělo přihlížet ke všem okolnostem, které ovlivňují skladbu mluvených projevů. V běžně mluvených projevech se uplatňují hlavně tito činitelé podmiňující výběr a uspořádání jazykových prostředků: a) mluvenost; b) nepřipravenost; c) prostě sdělná funkce; d) neveřejnost (resp. neoficiálnost) dorozumívacího aktu; e) vázanost na situaci; f) přímý kontakt s posluchačem; g) emocionalita, šíře expresivity a apelovost (Hausenblas, 1962, s. 316). Při každém projevu působí také individuální vlastnosti mluvčího, které se projevují například v tempu řeči či v emocionálnosti promluvy. Důležité jsou také vyjadřovací schopnosti mluvčího (plynulost řeči, hledání vhodných slov). Většinu těchto rysů můžeme zachytit a blíže zkoumat na audionahrávce. Jak již bylo řečeno výše, pro mluvené vyjadřování jsou charakteristická gesta, pohyby a mimika. Ideální by bylo zachytit i tyto projevové rysy, které jsou bezpochyby mnohdy důležité pro vyložení správného významu komunikátu. Jako nejvhodnější řešení se jeví pořízení videozáznamu. Pro další zkoumání mluvených projevů by to bylo jistě přínosem, avšak tato možnost není v současné době realizovatelná, zejména z finančního hlediska. Jistý vliv na skladbu mluvených projevů může mít i dosažené vzdělání či prostředí, ve kterém se mluvčí nachází. Vzhledem k tomu, že se tato práce zabývá syntaxí nepřipravených mluvených projevů, je třeba stanovit syntaktické rysy, které jsou pro tento typ projevu typické. Přestože
9
je syntax těchto projevů obtížně zkoumatelná, zabývá se jí stále více lingvistů. Již v 60. letech 20. století přišel Hausenblas se šesti základními rysy mluvených projevů, které by měly odpovídat především jejich syntaktické výstavbě. 1. Syntax není uzavřeným a izolovaným plánem stavby mluveného projevu (leccos může zůstat také v rovině mimojazykového vyjádření, tedy to, co je vyjádřeno implicitně). 2. Výstavbu mluvených projevů daleko více ovlivňuje technika mluvení (na rozdíl od projevů písemných spisovných, kde převládají spíše prvky, které jsou spjaty s tematikou projevu). Jedná se např. o hledání výrazu, vhodné konstrukce, navazování atd. 3. Častá je neplná realizace ve výstavbě syntaktických konstrukcí. Jedná se o nevyjádření některých větných členů. 4. Vyjádření syntaktických vztahů a samotné syntaktické vztahy nebývají mnohdy přesně vymezeny. 5. Vymezení hranic mezi větami a větnými celky nebývá vždy důsledné. Jedná se zejména o pauzy, kterými jsou oddělovány nejen jednotlivé věty, ale objevují se také v rámci věty např. při hledání vhodného pokračování nebo při vdechových pauzách. 6. Ve členění mluveného projevu se velmi výrazně prosazuje tzv. subjektivní pořadí jednotlivých složek výpovědi (Hausenblas, 1962, s. 318). Těmito základními rysy mluvených projevů, které vytyčil Hausenblas, se dále zabývá Müllerová v článku K syntaxi nepřipravených mluvených projevů. Na rozdíl od Hausenblase se nevěnuje mluveným projevům obecně, ale zaměřuje se konkrétně na nepřipravené mluvené projevy, jak už napovídá samotný název článku. Některé z Hausenblasových rysů detailněji rozpracovává. Základní rysy výstavby nepřipravených mluvených projevů podle Müllerové můžeme shrnout do následujících osmi rysů (Müllerová, 1966). Prvním z nich je neúplnost vyjadřování. Ta se objevuje velmi často, mezi její obvyklé projevy patří elipsy (zejména sloves – např. On na ni takhle). Elipsou rozumíme nevyjádření slova či slov, která jsou součástí větné stavby (např. Nevím, co dřív). Tento rys nebyl v korpusu vyhledáván, protože je velmi obtížné vytvořit obecný dotaz pro jeho vyhledání (viz kap. 5). Druhým rysem je nadbytečnost vyjadřování, tzv. pleonastičnost. Jedná se o používání slov či konstrukcí, které slouží jako slovní výplň. Mluvčí je užívá za účelem nale-
10
zení vhodného výrazu, aby navázal na již započatou myšlenku projevu. Jde např. o opakování předchozího sdělení, které je jen trochu jinak zformulované (Neoženil se, nechtěl se oženit) či o dvojí vyjadřování podmětu (Oni to byli naši kluci). Tento rys lze v korpusu vyhledávat, několik příkladů pleonastičnosti se objevuje v kap. 5.3. Třetím rysem je subjektivní pořádek slov, kdy autor výpovědi mluví nejprve o tom, co je pro něho nejdůležitější, poté se vrací zpět a hovoří o souvislostech děje, na závěr opět zopakuje důležitou část výpovědi. S tím se pojí některé slovosledné zvláštnosti, např. postavení slovesa na konec výpovědi (A on ten krátkej den byl). Vytvoření obecného dotazu pro vyhledávání tohoto rysu je nemyslitelné, protože řazení jednotlivých slov ve výpovědi je individuální, a tudíž obtížně předvídatelné. Čtvrtým rysem je neplná realizace syntaktických konstrukcí. Ve výpovědi se objevují nedokončené věty, chybějící větné členy, vyšinutí z větné stavby atd. Z těchto znaků byly vyhledávány pouze nedokončené výpovědi, pro které existuje v korpusu ORAL2008 speciální označení. Ostatní znaky jsou pro vyhledávání obtížně zobecnitelné. Důležitým, v pořadí pátým rysem, je uspořádání vět v pouhé juxtapozici, tedy prostě vedle sebe, bez upřesnění jejich vzájemného vztahu. Např. Bylo mi deset let, dostala se k nám švagrová. V nepřipravených mluvených projevech není propracovaná parataxe a hypotaxe tak, jako v projevech písemných. Tento rys nebyl vyhledáván, protože se jedná o náhodné řazení vět za sebou, které je nepředvídatelné, z toho důvodu není možné vytvořit obecný dotaz pro vyhledávání v korpusu. Šestým rysem jsou typické prvky, které jsou spjaty s technikou vyjadřování. Jedná se o výrazy a konstrukce typu abych tak řekl, jak říkám, dále výrazy jako no, no a, tak, no tak apod., které jsou spojeny právě s mluveností. Tyto a podobné prvky užívá mluvčí proto, aby získal více času a mohl si tak promyslet a vhodněji zvolit slova, která budou následovat. Tento typ slov se objevuje nejčastěji na začátku promluvy a slouží zejména k upoutání pozornosti. Protože je možné dopředu vytipovat konkrétní příklady prvků spjatých s mluveností, byl tento rys zařazen do vyhledávání (Müllerová, 1966, s. 121). K popsání sedmého rysu musíme vycházet z předpokladu, že základní jednotka mluveného komunikátu je výpověď. Pokud výpověď podrobíme bližšímu zkoumání, zjistíme, že jedna ze syntaktických konstrukcí výpovědi je hlavní. Může se jednat o větu,
11
souvětí i výraz nevětný. K této hlavní syntaktické konstrukci se dále připojují další konstrukce. Jedná se především o konstrukce polovětné, dále o výrazy a konstrukce, které se nazývají přídatné (Müllerová, 1966, s. 122). Přídatné konstrukce se přidávají k hlavní syntaktické konstrukci a významově ji modifikují. S hlavní syntaktickou konstrukcí nejsou ve vztahu souřadnosti ani závislosti. Tyto přídatné výrazy mohou být v antepozici (Podívej se, támhle jde!), postpozici (Tam jsou, vidíš?) a interpozici (Ten koncert říkám nestál za nic!). V rámci tohoto rysu byly vytipovány a následně vyhledávány tázací dovětky, které se v mluvené češtině často vyskytují. Osmým a posledním rysem je vysoká četnost oprav. S opravami souvisí pojmy rektifikace a korektury. Za rektifikaci jsou považovány případy, ve kterých jde o dvojí pojmenování téhož (přičemž druhý výraz opravuje, zpřesňuje, lépe vystihuje atp. to, co bylo označeno výrazem prvním), o korekturu jde tehdy, když druhý výraz označuje jinou (referenčně odlišnou) skutečnost než výraz první (Müllerová, 1994, s. 90). Časté opravy vypovídají o formulačních potížích mluvčího. O vyhledávání oprav pojednává kapitola 5.4.
12
2. Využití korpusu při zkoumání češtiny V současné době proniká technika do všech oblastí lidského života, ať už jde o hospodářství, ekonomii či vědu. Výpočetní technika se stává nedílnou součástí i humanitních oborů. Tato práce spadá do oblasti korpusové lingvistiky, disciplíny, jejíž vznik souvisí právě s výrazným rozvojem výpočetní techniky. Korpusová lingvistika se zabývá vytvářením elektronických jazykových korpusů, prostřednictvím kterých zkoumá jazyk. Podle Františka Čermáka se začala výrazněji vyčleňovat a vyvíjet v posledních dvou desetiletích 20. století.3 Jak již bylo řečeno výše, rozvoj korpusové lingvistiky souvisí především s výrazným rozvojem výpočetní techniky, díky němuž mohly vzniknout rozsáhlé elektronické soubory obsahující jazyková data. Tento proces vedl nevyhnutelně ke spolupráci lingvistů s odborníky z jiných oborů – především s informatiky a matematiky (Kučera, 2000, s. 4). Až výše zmíněný rozvoj výpočetní techniky a následná možnost spravovat velké množství jazykových dat prostřednictvím počítače umožnily nový přístup ke zpracování a sběru jazykových informací. „Obecně řečeno představuje tento nový, korpusovělingvistický přístup především takové zkoumání textů, při němž se texty chápou jako produkty jazykového systému a jazykových schopností jejich tvůrců a skrze něž se dospívá k poznání obecnějších jazykových zákonitostí a pravidel.“ (Kučera, 2000, s. 4) Díky existenci a tvorbě korpusů odpadá tradiční získávání dat, které se provádělo manuálně a které bylo časově velmi náročné (např. tvorba kartoték). Korpusová lingvistika se stává v posledních letech velice důležitou disciplínou, vznikají mnohé jazykové projekty, které jsou založeny přímo na korpusovém zpracování dat (Rychlý, 1997).
2.1 Jazykový korpus v českém prostředí Jak již bylo zmíněno výše, základním prostředkem výzkumu korpusové lingvistiky je korpus. „Korpus je soubor počítačově uložených textů (v případě mluveného jazyka – přepisů záznamu mluvy), který slouží k jazykovému výzkumu.“ (Čermák, Kocek, Co je korpus?)
3
Jeden z prvních korpusů – americký Brown Corpus – však vznikal již v letech 1961–1964. Na jeho vytváření se podílel lingvista českého původu Henry Kučera.
13
Podle Františka Čermáka chápe korpusová lingvistika korpus jako nejlepší vzorek skutečného jazyka a je přesvědčena o tom, že právě prostřednictvím korpusu lze jazyk uchopit a zkoumat nejvhodněji (Čermák, Kocek, Co je korpus?). Korpusy se rozdělují podle nejrůznějších kritérií. Například podle velikosti či různých specifikací. Základní členění korpusů je lingvistické. Dělí korpusy jednak na psané a mluvené, jednak na synchronní a diachronní (Kučera, 2000, s. 7). Psané korpusy jsou založeny na současných psaných textech, zpravidla zahrnují materiály z posledních desetiletí. Český psaný korpus SYN2005 obsahuje např. texty z oblasti beletrie, odborné literatury a publicistiky. Zajímavým projektem je Korpus soukromé korespondence, který obsahuje elektronické přepisy 2 000 ručně psaných dopisů z let 1999–2004. Mluvné korpusy jsou tvořeny přepisy nahrávek, které zachycují běžnou mluvu. Vzhledem k náročnosti přepisů nahrávek obsahují mluvené korpusy daleko méně slov než korpusy psané. Českých mluvených korpusů je pět a všechny jsou součástí Českého národního korpusu (ČNK). Synchronní korpus osahuje mluvený či psaný materiál ze současnosti, ČNK obsahuje v současné době deset psaných synchronních korpusů (nejstarší z nich pochází z roku 2000) a pět mluvených synchronních korpusů (nejstarší byl zveřejněn roku 2001). Diachronní korpus je oproti tomu tvořen texty z několika vývojových stádií jazyka, ČNK obsahuje dva diachronní korpusy (DIAKORP a DOTKO). Existují také paralelní korpusy, tzn. korpusy dvou nebo více jazyků, které jsou vytvořeny z překladů a obsahují vždy originální texty a jejich cizojazyčné mutace (Kučera, 2000, s. 9). ČNK v roce 2008 zveřejnil paralelní korpus InterCorp. Nejčastějším typem korpusu je korpus psaný synchronní. Všechny výše zmíněné korpusy jsou součástí Českého národního korpusu. Český národní korpus je kontinuální projekt, který je tvořen jednotlivými korpusy (psanými i mluvenými, synchronními i diachronními). Cílem ČNK je mapovat a sledovat nejrůznější podoby českého jazyka. Zpracovaná data se snaží zpřístupnit uživatelům, dále vyvíjí a zprostředkovává počítačové nástroje, díky kterým je možné s jazykovými daty snadněji pracovat (Kučera, 2000, s. 10).
14
„ČNK je cílevědomě budován tak, aby nabízel co největší možnosti a zároveň byl s to uspokojit co nejširší potřeby badatelů i pedagogů, odborníků i studentů, lingvistů i nelingvistů.“ (Kučera, 2000, s. 10) Na vytváření ČNK pracuje Ústav Českého národního korpusu (ÚČNK) se sídlem na Filozofické fakultě Univerzity Karlovy v Praze. ÚČNK byl založen v roce 1994 a zabývá se nejen tvořením a rozšiřováním korpusů, ale i výzkumem, výukou a rozvíjením oboru korpusová lingvistika (Kučera, 2000, s. 11).
2.2 Historie mluvených korpusů Pro výzkum zaznamenaný v této práci byl stěžejní mluvený korpus českého jazyka, který obsahuje přepisy běžně mluvené češtiny a který byl zveřejněn roku 2008. Počátky vzniku prvních mluvených korpusů ve světě spadají již do období 50. let 20. století. V té době byly korpusy ještě neelektronické, nejvýznamnějším z nich byl Survey of English Usage (SEU) Corpus. Obsahoval vzorky mluveného i psaného jazyka. Mluvený korpus zachycoval i prozodické rysy a snažil se reflektovat např. různé situační kontexty (přednášky, semináře, interview, konverzace, telefonické rozhovory). Obsahoval celkem 87 transkribovaných mluvených textů. Mladší korpus Survey of Spoken English si kladl za cíl převést do elektronické podoby mluvenou část výše zmíněného SEU korpusu. K původním 87 textům přidal dalších 13, čímž vznikl dnešní London Lund Corpus, donedávna největší a nejčastěji využívaný korpus mluvené angličtiny. Dalším významným mluveným korpusem byl Corpus of Spoken American English, který si kladl za cíl vytvořit první velký korpus angličtiny tak, jak ji používají dospělí Američané. Anglický CO-BUILD Corpus z přelomu 80. a 90. let 20. století je tvořen z 25 % transkripcí mluveného materiálu. Dalším velkým korpusem byl British National Corpus z první poloviny 90. let, který je z 10 % mluvený (Šulc, 1999, s. 28–38). Prvním elektronickým korpusem mluvené češtiny byl Pražský mluvený korpus, který byl zveřejněn v roce 2001. O rok později jej následoval Brněnský mluvený korpus, který byl prvním zveřejněným mluveným korpusem z oblasti Moravy. K dalším mluveným korpusům patří korpusy typu ORAL (ORAL2006 a ORAL2008), z nichž každý obsahuje přes milion slov. V současné době je nejnovějším mluveným korpusem SCHOLA2010, jedná se o korpus vyučovacích hodin. Všechny výše uvedené české korpusy jsou součástí ČNK.
15
2.3 Mluvený korpus ORAL2008 Veškeré výsledky, které jsou v této práci uvedeny, byly doloženy v mluveném korpusu ORAL2008. Jedná se o první mluvený korpus ÚČNK, který je plně vyvážený v základních sociolingvistických kategoriích mluvčích. Znamená to, že přepisy nahrávek byly do korpusu ORAL2008 vybrány tak, aby byly všechny hodnoty základních sociolingvistických kategorií mluvčích zastoupeny přibližně stejným počtem slov. Každá z hodnot binárních kategorií pohlaví (M / Z), věková skupina (I / V)4 a skupina podle stupně dosaženého vzdělání (A / B)5 je tedy zastoupena polovinou všech slov v korpusu (Waclawičová, Korpus mluvené češtiny ORAL2008). Existuje i starší mluvený korpus, ORAL 2006, který obsahuje přepisy 221 nahrávek z období let 2002–2006. Nahrávky pochází z oblasti českých nářečí v užším slova smyslu. ORAL2006 ale není vyvážený v základních sociolingvistických kategoriích mluvčích. Přepisy nahrávek, které jsou obsaženy v korpusu ORAL2008, zachycují mluvený projev v neformálních situacích. To znamená, že se jednotliví mluvčí navzájem znali, vztah mezi nimi byl přátelský, ve většině případů si tykají. Jedná se vždy o nepřipravený dialog na náhodné téma (Waclawičová, Korpus mluvené češtiny ORAL2008). Korpus obsahuje 297 přepsaných nahrávek, které byly sesbírány v letech 2002–2007 z různých míst v Čechách. „Zachycují autentickou mluvenou češtinu v přirozeném prostředí na území tradičně vymezovaném jako oblast českých nářečí v užším smyslu. Vzhledem k postupu nivelizačních procesů jde v projevech nejčastěji o obecnou češtinu a její regionální varianty.“ (Waclawičová, Korpus mluvené češtiny ORAL2008) Nahrávky v korpusu ORAL2008 tvoří necelých 115 hodin a zaznamenávají 995 mluvčích. Celkový počet slov obsažených v korpusu je 1 000 097 (Waclawičová, Korpus mluvené češtiny ORAL2008). Podíl na pořizování, přepisu a úpravách nahrávek měli studenti pražských vysokých škol (zejména Filozofické fakulty Univerzity Karlovy v Praze). Nahrávky sbírali také studenti z dalších vysokých škol na území Čech a spolupracovníci ÚČNK (Waclawičová, Korpus mluvené češtiny ORAL2008). Od roku 2008 do tohoto korpusu přispívají
4
I označuje věk od 18 do 35 let (osoby mladší 18 let se nemohly v nahrávkách objevovat), V označuje věk od 35 let. 5 A označuje mluvčí s vysokoškolským vzděláním, B označuje mluvčí, jejichž nejvyšším dosaženým vzděláním bylo základní nebo středoškolské.
16
svými nahrávkami i studenti z Moravy, jedná se především o studenty z Filozofické fakulty Masarykovy univerzity v Brně.
2.4 Tvorba mluveného korpusu V následující kapitole je ve zkratce představen proces tvorby mluveného korpusu ORAL2008, konkrétné práce nahrávajícího. Každý nahrávající měl za úkol pořídit nahrávku přirozené, neformální situace (např. hovor doma, na návštěvě, na výletě atp.). Počet mluvčích v nahrávce nebyl omezen, podmínkou bylo pouze to, že se nesmí jednat o monolog. Na nahrávce se dále nemohly vyskytovat děti a mládež do 18 let a telefonní hovor. Ideální délka nahrávky byla stanovena na 20–30 minut (Waclawičová, Stránka sběru dat pro mluvené korpusy). Po pořízení nahrávky ji nahrávající přepsal v programu Transcriber transkripcí, která je blízká folkloristické (nikoli fonetické), tedy transkripcí, která je nejbližší běžnému záznamu psanému. Obsahuje však speciální úpravy pro účely elektronického zpracování podle úzu zavedeného v ČNK (viz kap. 3. Zásady přepisu). Projev jednotlivých mluvčích byl při přepisování rozdělován do segmentů6, jeden segment nesměl obsahovat více než 15 slov. Díky programu Transcriber bylo možné zaznamenat i ty případy, kdy mluvili dva mluvčí současně. Po pečlivé transkripci nahrávky ji nahrávající uložil a tak vytvořil tzv. sondu, kterou následně vložil do databáze (ta byla vytvořena speciálně pro mluvený korpus). Aby mohla být sonda do databáze vložena, musel o ní nahrávající nejprve vyplnit základní informace. Mezi ně patřily např.: jméno nahrávajícího, délka sondy, měsíc a místo pořízení nahrávky, nářeční oblast, ve které byla nahrávka pořízena, typ situace nahrávání, téma hovoru, typ promluvy (musela být vždy nepřipravená), počet mluvčích a jejich vzájemný vztah, zaměstnání jednotlivých mluvčích atd. Sonda, která byla nahrávajícím vložena do databáze, byla poté ještě předána ke kontrole koordinátorovi (Waclawičová, Stránka sběru dat pro mluvené korpusy).
6
segment = úsek, který přibližně odpovídá jednoduché větě, podřadnému souvětí nebo větnému fragmentu
17
3. Zásady přepisu Před začátkem vyhledávání je nutné seznámit se se zásadami přepisu, které byly použity v korpusu ORAL2008. Přepis není fonetickou transkripcí, ovšem v případech, ve kterých se běžná mluva liší od výslovnosti spisovné, je zaznamenávána právě tato odlišná výslovnost a tradiční zápis se nerespektuje. Zachycovány jsou tedy odchylky od spisovné mluvy. Zapisuje se např. sem (=jsem), pudu (=půjdu) atd. Zachycují se i různé realizace spodoby znělosti, např. s máslem/z máslem. Tradičně se zapisují ty souhláskové skupiny, u kterých i spisovná výslovnost předpokládá výslovnost zjednodušenou, např. každodenní. Splývavá artikulace koncových hlásek na mezislovních předělech se neregistruje, napíšeme pod čepicí, i když bylo vysloveno počepicí. Zaznamenává se odlišná kvantita – fonologická (např. klucí, nevim) i emfatická (např. bóže). Nedořečené slovo se označuje hvězdičkou za slovem a odděluje se čárkou (pokud za tímto slovem nenásleduje totéž slovo, už dořečené – v takovém případě se slova oddělují mezerou). Hezitační zvuky se označují spojením tří písmen, u souhláskových zvuků se jedná o hmm, u samohláskových o eee. Původním pravopisem se píší cizí vlastní jména (např. New York), zkratky se zapisují podle toho, jak byly v daném případě vysloveny. Začátek výpovědi se píše vždy s malým písmenem, hranice výpovědí se značí interpunkcí. Neukončená výpověď se označuje třemi tečkami s dvojtečkou (…:). Vysvětlivky a poznámky k přepisu se píší do kulatých závorek. Části, které nebylo možné rozluštit, jsou označeny třemi pomlčkami (---). Příjmení a přezdívky, které jsou kvůli anonymitě kódovány, byly nahrazeny zkratkami NP (příjmení) a NN (přezdívka). V některých přepisech byly kódovány i místní názvy, křestní jména a další vlastní jména – záleželo na přání mluvčích. Jména a příjmení známých osobností nebyla kódována a přepisovala se tak, jak zazněla. Stejně tak nebyly kódovány jména zvířat. Velká písmena byla použita výhradně pro tvorbu anonymizačních zkratek a stojí také na začátku všech vlastních jmen, která nebyla kódována (Waclawičová, Zásady přepisu pro korpus ORAL2008). Seznam použitého označování:7 …:
označení neukončené výpovědi
7
Převzato z WACLAWIČOVÁ, M. Zásady přepisu pro korpus ORAL2008. [online], [cit. 2. 3. 2012], Český národní korpus. Dostupné z:
.
18
…
označení přerušené výpovědi
---
úsek, který se nepodařilo rozluštit
*
nedořečené slovo
hmm
označení souhláskových zvuků
eee
označení samohláskových zvuků
(mluví ke kočce), (smích) komentář k situaci, přerušení promluvy smíchem NP
příjmení
NN
přezdívka
NJ
křestní jméno
NM
název místa
NO
ostatní vlastní jména
Díky těmto speciálním značkám bylo možné v korpusu ORAL2008 vyhledat neukončenou výpověď, přerušenou výpověď a nedořečená slova.
19
4. Práce s korpusem a vyhledávání K práci s korpusem je nezbytný speciální vyhledávací program, tzv. korpusový manažer. Jeho prostřednictvím lze například: vyhledávat jednotlivá slova nebo slovní spojení v přirozeném kontextu, zjistit frekvenci těchto slov v daném korpusu a vyhledat původní textový zdroj, ve kterém se námi hledané výrazy nacházejí. S výsledky vyhledávání je možné dále pracovat. Vyhledávání v jednotlivých korpusech ČNK není náročné, pokud se uživatel dopředu seznámí se základy ovládání vyhledávacího programu Bonito. K tomu poslouží především detailní návod zveřejněný na webových stránkách ČNK, který obsahuje veškeré potřebné informace. Tipy na vyhledávání lze najít např. i v díle K. Kučery Český národní korpus: úvod a příručka pro uživatele či Jak využívat Český národní korpus F. Čermáka a R. Blatné, i když se jedná o příručky, které se zaměřují spíše na vyhledávání v korpusech psaného jazyka. Tyto tři zdroje popisují různé způsoby, jak v korpusech vyhledávat. Vyhledávacímu programu Bonito předcházel program GCQP, jehož autorem je Pavel Rychlý. Ke konci roku 2004 byl spuštěn již zmíněný program Bonito8, který se předchozímu programu velmi podobá, má ovšem několik výhod. Jedná se např. o jednodušší instalaci, rychlejší vyhledávání, třídění vyhledávaných dat, vytváření statistik atd. Původní verze tohoto vyhledávacího programu prošla dalšími změnami a v prosinci roku 2006 došlo ke spuštění webového rozhraní – Bonita2. To na konci roku 2011 nahradilo na webových stránkách ČNK nové webové rozhraní pro vyhledávání v korpusech. Jedná se o Sketch Engine, který je oproti předchozímu Bonitu výrazně vylepšený (např. nevyžaduje žádnou instalaci) (viz Krátké zprávy). Korpusy mluveného jazyka nejsou na rozdíl od psaných korpusů otagovány. Morfologické značkování mluvených korpusů je velmi obtížné, zejména kvůli jeho pestrosti. Problematice značkování mluvených korpusů se ve studii Morfologické značkování mluvených korpusů, zkušenosti a otevřené otázky podrobně věnují D. Hlaváčková a K. Osolsobě. Morfologické značky jsou součástí výsledku morfologické analýzy, která pracuje s jednotlivými tvary slov (bez ohledu na jejich kontext). Součástí výsledku morfologic-
8
Jeho autorem je rovněž Pavel Rychlý.
20
ké analýzy je tzv. lemma, které příslušnou lexikální jednotku přiřadí k jednoznačnému slovníkovému heslu (k jeho základnímu tvaru). Každá značka je tvořena řetězcem 16 znaků (pozic), každá pozice odpovídá jedné morfologické kategorii (Hajič, Popis morfologických značek – poziční systém). Jednotlivou pozici lze zapsat určitým znakem, většinou se jedná o velká písmena abecedy. Na základě těchto znaků lze sestavit různé tagy, jejichž prostřednictvím je možné vyhledávat v korpusu. Popis jednotlivých pozic značek je zveřejněn na webových stránkách ČNK. Vyhledávání v korpusech mluveného jazyka je tedy obtížnější, protože zatímco u psaných korpusů je obvyklé vyhledávat pomocí tagů, u mluvených korpusů se musí vyhledávání provádět zadáním konkrétního tvaru slova či slovního spojení (v odpovídajícím pádu, čísle atp.). Další možný způsob je vyhledávání pomocí regulárních výrazů, více v následující kapitole.
4.1 Nastavení korpusového manažeru a použité funkce Veškeré vyhledávání v této práci bylo provedeno prostřednictvím korpusového manažeru Bonito (v tradiční verzi, nikoli webové). K tomu, aby bylo možné manažer používat, musí zájemce zažádat o plný přístup k Českému národnímu korpusu. Získá tak vlastní uživatelské jméno a heslo. Díky těmto údajům je možné se přihlásit do korpusového manažeru a začít s vyhledáváním. Před začátkem samotného vyhledávání je nutné vybrat z nabídky korpusů mluvený korpus ORAL2008. Pro vyhledávání slov či slovních spojení se využívá dotazový řádek, do kterého se zadávají jako Nový dotaz hledané výrazy, vyhledávání se zahajuje stisknutím klávesy Enter. Zadaný dotaz vyhledá korpusový manažer přesně v té podobě, v jaké bylo slovo či slovní spojení zadáno. Čili když zadáme např. dotaz pes, korpus toto slovo nevyhledá v žádném jiném pádu nebo čísle. Další způsob zadávání dotazů je pomocí tzv. regulárních výrazů. Těmi rozumíme různé znaky mající speciální význam. V této práci byly použity následující regulární výrazy: tečka (.) nahrazuje jeden libovolný znak, hvězdička (*) představuje libovolný počet opakování předchozího znaku, zpětné lomítko (\) ruší speciální význam znaku, pokud je umístěno před ním – chceme-li vyhledat v korpusu všechny tečky, musíme nejdříve před tečku zadat zpětné lomítko (jinak korpus vyhledá libovolný jeden znak). Speciálních znaků je více, ale jiné nebyly ve vyhledávání použity.
21
V korpusu lze pro naši potřebu nastavit rozsah kontextu, který se zobrazí zároveň s hledaným výrazem. Nastavení se provede pomocí funkce Zobrazení > Kontext, po zobrazení tabulky se zadá požadovaný počet znaků či pozic vlevo i vpravo od hledaného výrazu. Pro všechna vyhledávání, která jsou uvedena v této práci, byl nastaven kontext 150 znaků vpravo i vlevo, který byl dostačující. Ke snadnější práci s kontextem byla často využívaná funkce Konkordance > Jednoduché třídění. Díky ní lze pravý nebo levý kontext podle Třídícího klíče seřadit abecedně, řadit lze libovolné pozice. Tato funkce byla využívána z toho důvodu, aby bylo zjištěno, která slova se nejčastěji vyskytovala v okolí vyhledávaného výrazu. Další používanou funkcí je P filtr (pozitivní filtr). Pomocí této funkce dojde ke snížení počtu konkordančních řádků vyhledáním dalšího zpřesňujícího dotazu, např. v kontextu (lze i ve vyhledávaném slovním spojení). Pokud chceme s výsledky dále pracovat v jiném programu, můžeme si je uložit na disk. Pro uložení konkordančních řádků zvolíme možnost: Konkordance > Uložení. Uložit lze všechny řádky nebo jen ty aktuálně zobrazené.
22
5. Vyhledávání vybraných syntaktických struktur v korpusu ORAL2008 a výsledky vyhledávání V kapitole 1.3 Mluvený projev a jeho syntaktické rysy bylo vytyčeno osm základních rysů výstavby nepřipravených mluvených projevů. Z těchto rysů byly vybrány čtyři konkrétní znaky mluvených komunikátů, které se zdají být nejvhodnější pro vyhledávání v korpusu. Jedná se o opakování (viz kap. 5.4), opravy (viz kap. 5.2), typické prvky spjaté s mluveností (viz kap. 5.3) a tázací dovětky (viz kap. 5.1). U těchto rysů lze předem vytipovat nejčastěji frekventovaná slova a slovní spojení, která by mohla být obsažena v korpusu, vytipování proběhlo na základě příkladů uvedených v literatuře. Vyhledávány byly konkrétní výrazy, nejčastěji používanými funkcemi byly: P filtr, Jednoduché třídění a Kolokace. Rozsah kontextu byl nastaven na 150 znaků vlevo i vpravo, jednotlivé výsledky byly ve většině případů tříděny ručně, protože bylo nutné rozhodnout, zda se jednalo, či nejednalo o hledaný rys. Ostatní rysy nebyly pro vyhledávání v korpusu ORAL2008 vhodné. Jelikož lze v mluveném korpusu vyhledávat pouze podle atributu word (tedy zadáním konkrétního tvaru slova či slovního spojení), je velmi obtížné vyhledávat např. první rys, neúplnost vyjadřování, a čtvrtý rys, neplnou realizaci syntaktických konstrukcí (výjimkou bylo vyhledávání nedokončené výpovědi – pro tu existuje v korpusu speciální označení, tudíž ji bylo možné vyhledat, viz kap. 5.3). Rys třetí, subjektivní pořádek slov, lze opět velmi obtížně vyhledávat, protože řazení slov je individuální a neočekávatelné (nelze zobecnit). K vyhledávání pátého rysu (uspořádání vět v juxtapozici) by musely být použity dotazy obsahující konkrétní výpovědi, protože se jedná o rys, pro který nelze v mluveném korpusu vytvořit obecný dotaz. Kvůli názornosti bylo u každého vyloučeného rysu provedeno jedno vyhledávání (na základě příkladů uvedených v literatuře). 1. rys, neúplnost vyjádření Jako Nový dotaz byla vyhledávána eliptická konstrukce vona nic. Zobrazeno bylo 6 výskytů, z toho se ve dvou případech jednalo o eliptickou konstrukci (ostatní případy byly součástí delší výpovědi). (1) […] no , hele , z toho , co mi řikáš , mám pocit , že se strašně snažíš a vona nic […]
3. rys, subjektivní pořádek slov
23
Jako Nový dotaz bylo zadáno spojení slov: já kvůli těm šatum dvě noci sem nespala. V korpusu se nenacházelo. Jako příklad subjektivního pořádku slov byla vybrána náhodná výpověď v korpusu. (1) […] k nim šel do klubu jako se na tři minuty pouze připomenout jako […]
4. rys, neplná realizace syntaktických konstrukcí Jako Nový dotaz bylo zadáno následující spojení slov: já vám si dost takovou paměť mám. V korpusu nebyl nalezen žádný výsledek. Náhodný příklad z korpusu: (1) […] <mluvčí 1> kolik je ? <mluvčí 2> za pět sedum […]
5. rys, uspořádání vět v juxtapozici V korpusu bylo vyhledáváno následující: bylo mi deset let dostala se k nám švagrová. Po zadání tohoto dotazu nebyl zobrazen žádný výsledek. Z toho důvodu byl vybrán náhodný příklad. (1) […] no takle , já myslim , že to bylo , já sem nikomu neřikal […]
Vyhledávání výše uvedených rysů muselo být prováděno náhodně, např. na základě kontextu, který se objevuje kolem předem vytipovaného slova. Zadání konkrétní konstrukce končí ve většině případů neúspěšným vyhledáváním. Čím je zadaný dotaz delší, tím je menší pravděpodobnost, že se vyskytuje v korpusu. Všechna vyhledávání zaznamenaná v této práci byla provedena dvakrát, kvůli ověření získaných výsledků. Z konkordančních řádků byly vždy vyloučeny ty případy, kdy se jeden řádek v celkovém počtu výskytů objevoval vícekrát, např. když bylo vyhledáváno opakování slova no dvakrát po sobě, vyloučeny byly ty řádky, ve kterých se slovo no vyskytovalo více než dvakrát. Veškeré citace, které jsou označeny číslem v kulaté závorce, pochází z korpusu ORAL2008 (odkaz na korpus je uveden v Seznamu použité literatury).
5.1 Tázací dovětky Tázací dovětky jsou krátké otázky, které se připojují k oznamovacím větám. Používají se buď proto, aby se mluvčí ujistil, že to, co říká, je skutečně pravda, nebo aby přiměl posluchače se nad větou zamyslet. Někdy jde o skutečnou otázku, na kterou se očekává odpověď, jindy se jedná pouze o otázku řečnickou. Tázací dovětek je finální částí 24
oznamovací věty, kterou svou přítomností mění na otázku (Daneš, Grepl, Hlavsa, 1987, s. 608). S pomocí odborné literatury byly vybrány nejčastější tázací doplňky typické pro češtinu. Vyhledávány byly následující dovětky: ano?, áno?, jo?, jó?, ne?, né?, no?, nó?, viď?, viďte?, že?. Jako Nový dotaz byl vždy zadán konkrétní dovětek, ale bez otazníku. Tento postup byl zvolen z toho důvodu, aby byl nejprve zjištěn celkový počet výskytů konkrétního výrazu v korpusu, otazník byl poté vyhledáván pomocí P filtru. Výsledky byly ručně tříděny a rozhodovalo se o tom, zda se jedná, nebo nejedná o tázací dovětek. Nevyhovující výsledky byly odstraněny. ano? Po zadání dotazu ano vyhledal korpusový manažer 750 výskytů. Zobrazené výsledky byly pomocí P filtru omezeny pouze na ty, ve kterých v kontextu na první pozici vpravo následoval otazník (zadaný dotaz \?). Takových případů bylo 11. Po jejich ručním třídění bylo zjištěno, že pouze u pěti případů jde o dovětek. (1) […] <mluvčí 1> třeba volby ? <mluvčí 2> hmm , hmm , hmm , hmm , hmm . <mluvčí 1> prezidenta , jo ? prezidentské myslíš , ano ? […] (2) […] <mluvčí 1> zaplatim , ano ? prosim ? ano […] (3) […] <mluvčí 1> nechá se tam eee z prakticky každého povolání se nechá vstoupit do politiky , ano ? <mluvčí 2> hmm […]
V nevyhovujících případech se jednalo o samostatnou výpověď jednoho z mluvčích, který reagoval na druhého mluvčího. (4) […] <mluvčí 1>prosim tě , chci se zeptat , ... <mluvčí 2> ano ? <mluvčí 1>... ty nám , ty nám tuto nevyndáš ? […]
V korpusu se nevyskytovaly žádné doklady dovětku že ano? áno? Vyhledávaný dotaz áno se v korpusu vyskytoval pouze dvakrát. Ani v jednom případě se však nejednalo o dovětek, viz následující příklady. (1) […] <mluvčí 1> tak já du zase pracovati a kdybys něco chtěla , tak na mě zakřičíš ? <mluvčí 2> áno […]
25
(2) […] <mluvčí 1> jako taková ta vložka , na kt* , na c* , na čom se … <mluvčí 2> áno […]
jo? Výraz jo se v korpusu nacházel 16 943krát. Pomocí funkce Konkordance > Statistiky > Kolokace byly zjištěny nejčastější kolokace na pozici 1 napravo od vyhledaného výrazu. Otazník se zde vyskytoval v 2 897 konkrétních případech. Pomocí P filtru byly odstraněny všechny ostatní možné kolokace na pozici 1 (zadaný dotaz \?). Ty byly ručně roztříděny. Případy, ve kterých nešlo o dovětek, byly odstraněny (jednalo se nejčastěji o samostatnou výpověď, reakci na druhého mluvčího). Zůstalo 1 963 dovětků. (1) […] <mluvčí 1> a polobratr , to je , že má jednoho rodiče společnýho , jo ? <mluvčí 2> správně , jednoho rodiče […] (2) […] <mluvčí 1> táta , ten měl želvičku . <mluvčí 2> než mu jí děda zazdil , že jo ? […] (3) […] <mluvčí 1> v páteks ďála vodpoledne úkol , jo ? […]
Nejčastější spojení vyhledávaného slova bylo v korpusu se spojkou že, objevilo se 336krát. jó? Vyhledávána byla i alternativa jo s dlouhým vokálem, tedy jó. Ta se v korpusu objevila 417krát. Stejně jako u předcházejících vyhledávání byl vytvořen seznam nejčastějších kolokací na pozici 1 vpravo. V 66 případech následoval po hledaném výrazu otazník. U těchto případů se rozhodovalo podle kontextu, zda se jedná nebo nejedná o dovětek. Po odstranění nevyhovujících řádků zbylo 17 dovětků. (1) […] <mluvčí 1> jó , pak sem vařila . hmm . <mluvčí 2> hmm . to si jen tak s chlebem , jó ? <mluvčí 1> s chlebem jenom , no […] (2) […] <mluvčí 1> seš lechtivý miminko , jó ? seš , jó ? […] (3) […] <mluvčí 1> tak , tak tys mě přivítala , jó ? takles mě krásně přivítala , kočičino bláznivá , no jej , co bys asi chtěla ? […]
ne? Do vyhledávacího řádku bylo zadáno slovo ne, zobrazilo se 7 387 výskytů. Za použití P filtru byl na pozici 1 vpravo vytříděn otazník (vložený dotaz \?). Řádků, ve kterých se nacházel otazník za hledaným výrazem, zůstalo 1 625. Po ručním třídění těchto řádků bylo nalezeno 1 356 konkrétních případů dovětků. V 11 z nich šlo o spojení hledaného výrazu se spojkou že. 26
(1) […] <mluvčí 1> jenže to je tim , že máš dotovanej telefon , ne ? <mluvčí 2> já s otcem mám hovory za , za hubičku . <mluvčí 1> jo takle […] (2) […] <mluvčí 1> to byly dobrý hory , no , to byly ty uplně první , ne ? <mluvčí 2> byly první a na druhejch pak sme byli s Ríšou a s Davidem . a to byla taky sranda […] (3) […] <mluvčí 1> au , au , au . <mluvčí 2> copak ? nebolí tě to , že ne ? <mluvčí 1> ne . <mluvčí 2> udělej mi radost . <mluvčí 1> ne , nebolí . <mluvčí 2> jenom mi , ti trochu teče krev a máš trošku monokla […]
né? Po zadání výrazu né do vyhledávacího řádku zobrazil korpusový manažer 757 výskytů. Pomocí P filtru byl omezen kontext na pozici 1 vpravo pouze na otazník. Takto se předchozí výskyty zúžily na 63. Ručně byly odstraněny ty řádky, ve kterých se nejednalo o dovětky. Zůstalo tak pouze 44 výrazů, viz následující příklady. (1) […] <mluvčí 1> jak byl ten film , eee v televizi ten seriál vo těch útěkách , jak vlastně utíkali . <mluvčí 2> to bylo teďkon nedávno , né ? <mluvčí 1> nó , to vopakovali […] (2) […] <mluvčí 1> ale nakonec to někdo bude muset posbírat , né ? <mluvčí 2> no jó , to posbírám já […] (3) […] <mluvčí 1> no , že sou dva manželé , který slaví , eee , stříbrnou svatbu , to je , dyž je padesát let , že jo ...: <mluvčí 2> ne , ne , stříbrná je ...: třicet , né ? to je zlatá , stříbrná je pětadvacet […]
no? Vyhledávaný dotaz no se v korpusu vyskytoval ve 27 311 případech. Pomocí P filtru byl vyhledán na pozici 1 vpravo otazník. Po odfiltrování nevyhovujících řádků zůstalo 98 potencionálních dovětků. Ty byly ručně vytříděny a výrazy, které nebyly dovětky, byly odstraněny. Zůstalo 16 dovětků. (1) […] <mluvčí 1> a jako někdy přijedeš nebo tak , no ? <mluvčí 2> no tak já doufám , že budu jezdit co nejvíc , no . ale vono je to drahý […] (2) […] <mluvčí 1> nebuď drzej , Vlasto ! <mluvčí 2> kdes byl , no ? […] (3) […] <mluvčí 1> a vy ste taky byli na tý veselce , že jo , no ? <mluvčí 2> no jo . <mluvčí 1> no , jenže voni pak eště strašili tánle někde na zahradě .
27
<mluvčí 2> v noci eště tančili , nó […]
nó? Varianta s dlouhým vokálem nó se v korpusu vyskytovala celkem 559krát. Stejně jako u předcházejících vyhledávání byly za použití P filtru odstraněny všechny případy, ve kterých se na 1. místě vpravo od hledaného výrazu nenacházel otazník. Tím se výsledky omezily na pouhých 6 řádků, ovšem ani v jednom případě se nejednalo o dovětek, viz následující příklady. (1) […] <mluvčí 1> jako když tam přídeš , tak , ... <mluvčí 2> nó ? […] (2) […] <mluvčí 1> a ten nájem mi zaplatíš kdy ? <mluvčí 2> no , hehe , ... <mluvčí 1> nó ? ... <mluvčí 2> nevim […]
viď? Do vyhledávače byl zadán dotaz viď, v korpusu bylo nalezeno 1 546 výsledků. Z nich se P filtrem omezily výsledky pouze na ty, ve kterých se na první pozici zprava vyskytoval otazník. Po odfiltrování zůstalo 642 výsledků, ze kterých bylo po ručním třídění 612 z nich určeno jako dovětky. (1) […] <mluvčí 1> normálně sme přinesli plnej koš hub . <mluvčí 2> hmm . <mluvčí 1> teďka v listopadu , viď ? jo , to bylo vlastně až štvrtýho […] (2) […] <mluvčí 1> dřív to bylo takový lepší , viď ? vezmi si , neska ty mladý to moc lehký nemaji , viď ? <mluvčí 2> no , to víš , no . dneska začínaji z ničeho […] (3) […] <mluvčí 1> do tejdle malej by se ti taky vešel deštník , ne ? <mluvčí 2> no , vešel , no , ale prostě , neni to ...: <mluvčí 1> už by se tam nevešlo nic jinýho , viď ? […]
viďte? Vyhledávaný dotaz viďte (2. os. pl.) se v korpusu nacházel pouze dvakrát, z toho šlo jen jednou o dovětek (ve druhém případě se jednalo o začátek výpovědi). V následujícím příkladu je hledaný výraz dovětkem. (1) […] <mluvčí 1> usnout a nevzbudit se , viďte ? <mluvčí 2> ano . <mluvčí 1> to říkám , že to je nejkrásnější vodchod z tohoto světa […]
28
že? Po zadání dotazu že do korpusu bylo zobrazeno celkem 19 181 řádků. Stejně jako v předchozích případech byl použit P filtr, díky kterému byly vyloučeny nevyhovující řádky (ty, které neobsahovaly na 1. pozici zprava otazník). Z původního vyhledávání zůstalo pouhých 32 řádků. Tři z nich nebyly dovětky, konečný počet dovětků byl 29. (1) […] vemou mi tam kreditku ? mohli by , že ? hmm […] (2) […] no , musíte věřit , že to dobře dopadne . nehledě na to , že vono to taky , vono to taky dost bolí , že ? ano , to jistě […] Tabulka 1: Přehled vyhledávaných dovětků zadaný dotaz (dovětek) 1. jo? 2. ne? 3. viď? 4. né? 5. že? 6. jó? 7. no? 8. ano? 9. viďte? 10. nó? 11. áno?
celkový počet vyhledaných výrazů 2 897 1 625 642 63 32 66 98 11 2 6 2
celkový počet dovětků 1 963 1 356 612 44 29 17 16 5 1 0 0
Na základě výše uvedených výsledků byl dotaz na vyhledávání tázacích dovětků zobecněn. Ve většině případů následoval tázací dovětek po čárce, byl tvořen dvěma, třemi nebo pěti slovy a následoval po něm otazník. Zobecněný dotaz pro vyhledávání tázacích dovětků může být následující: čárka, mezera, dvě až pět teček (regulární výrazy, každá tečka představuje jeden libovolný znak), mezera, zpětné lomítko, otazník. Podoba dotazu pro vyhledání dovětku složeného: •
ze dvou písmen , .. \?
•
ze tří písmen , ... \?
•
z pěti písmen , ..... \?
Podoba dotazu pro vyhledání jakéhokoliv dovětku: •
, .* \?
29
Jednotlivé výsledky je vždy nutné podrobit ručnímu třídění, protože ne všechny musí být dovětkem.
5.2 Opravy Rektifikací neboli opravou se rozumí spojení dvou složek (vět nebo syntaktických skupin), v němž druhá složka lépe vystihuje referent. Opravuje či zpřesňuje složku první, nebo ji nahrazuje jinou (Encyklopedický slovník češtiny, 2002, s. 372). Vyhledávané výrazy, jimiž se vyjadřuje oprava, byly vybrány z příkladů uvedených v Encyklopedickém slovníku češtiny a v dílech Müllerové. Vytipovány byly následující výrazy: tedy, teda, vlastně, mám na mysli, myslím, myslim, respektive, počkej, neto. V korpusu ORAL2008 byla vyhledávána i nedokončená slova (značí se hvězdičkou), která s opravami souvisí. Zpravidla po nich totiž následovalo to slovo, které mělo být původně vysloveno (např. jes* – jestli). Do korpusu byla zadávána konkrétní slova, která byla předtím vytipována. Výsledky byly tříděny podle pravého kontextu kvůli větší přehlednosti (pokud to bylo potřeba) a ručním třídění bylo rozhodnuto o tom, zda po hledaném výrazu následovala oprava, popřípadě zpřesnění předchozího sdělení. Nevyhovující výsledky byly odstraněny. tedy Do vyhledávacího řádku byl zadán výraz tedy. Korpus obsahoval 98 výskytů tohoto slova. Výsledky byly setříděny pomocí funkce Konkordance > Jednoduché třídění > Počet tříděných pozic 1, Třídící klíč: Pravý kontext. Takto byly jednotlivé řádky seřazeny podle první pozice v pravém kontextu abecedně. Ručně byly vyhledány ty případy, ve kterých byla spojka tedy použita u opravy v textu, což bylo posouzeno podle okolního kontextu. Jen sedm případů z nalezených 98 bylo opravou. Podle výsledků vyhledávání v korpusu lze předpokládat, že tedy se používalo více k vysvětlování a upřesňování dříve řečených informací, dále ke zvyšování důrazu v promluvě, často sloužilo jako slovní výplň. (1) […] <mluvčí 1> zapomněla na své předchozí předsevzetí a včera se ozval eee na mobil člověk , tedy byl to muž […] (2) […] <mluvčí 1> to já dyž sem jí viděl ten první večer tady v tý váze , tak sem si řikal , tedy druhej den sem řikal […]
30
teda Vyhledávaný dotaz teda se v korpusu vyskytoval 2 956krát. Hovorová varianta v korpusu jednoznačně převyšovala. Protože výskytů bylo mnoho na to, aby byly tříděny všechny ručně, byly omezeny pomocí funkce Konkordance > Redukce a v konkordančním seznamu bylo ponecháno prvních 500 řádků. V těchto zbylých 500 řádcích byly ručně vyhledávány ty případy, ve kterých byl hledaný výraz použit k opravě vyjádření. Takových řádků bylo nalezeno 27. Nejčastěji se slovo teda použilo ke zpřesnění sdělení nebo ke zdůraznění sdělované informace. Častá byla následující slovní spojení: to nevim teda, to ne teda, to teda, to jo teda, to je teda. (1) […] <mluvčí 1> voni tam měli specielně takový , no , šunčičku , viď , tvarůžek , eee teda ne tvarůžek , co blbnu , eee ten sýre* sýr , no […] (2) […] <mluvčí 1> hmm , třeba nám ujíždí metro , teda tramvaj […]
vlastně Po zadání výrazu vlastně do korpusu bylo zjištěno, že se v něm nachází 1 300krát. Výsledky byly zredukovány stejně jako u předchozího vyhledávání na 500 a byly vyhledávány ty případy, kdy po vlastně následovala oprava. Takových případů bylo 32. Ze získaných výsledků bylo vyvozeno, že se slovo vlastně používalo spíše ke zpřesnění dříve uvedené informace nebo pouze jako slovní výplň – jednalo se o případ pleonastičnosti. Časté bylo použití slova vlastně tehdy, když si mluvčí v průběhu řeči uvědomil nějakou skutečnost, kterou předtím opomněl. (1) […] <mluvčí 1> ale víš , co bylo zajímavý ? že tam řikali , že vlastně , Bohdalka to tam řikala […] (2) […] <mluvčí 2> tak hned v říjnu šedesát sedum , eee nebo vlastně eště v srpnu šedesát sedum […]
mám na mysli Dalším vyhledávaným dotazem bylo slovní spojení mám na mysli. V korpusu byly nalezeny dva výskyty užití tohoto spojení slov. V prvním případě se nejednalo ani o opravu ani o upřesnění předchozího sdělení. Na druhém případu lze doložit, že šlo o zpřesnění sdělované informace, viz následující. (1) […] <mluvčí 1> já sem to řek jinak . jestli máš na mysli to , co mám na mysli já […] (2) […] <mluvčí 1> a přesto ty hráčí nejsou schopni tam v tej konkurenci těch ostatních mladíků se uplatnit , mám na mysli tedy fotbal […]
31
myslím Do vyhledávacího řádku byl zadán výraz myslím. Zobrazeno bylo 35 výskytů užití hledaného slova. Hledaly se takové výskyty, které byly opravami či upřesněním. Ani jeden z 35 výskytů nebyl opravou nebo upřesněním. Ve 26 případech se bezprostředně za slovesem myslím vyskytovala čárka a spojka že, v 19 případech se před hledaným výrazem vyskytovalo na pozicích -3 až -1 osobní zájmeno já. Nejčastější konstrukcí tedy byla konstrukce typu já myslím, že. (1) […] <mluvčí 1> to znamená jenom první minuta hovoru by tě stála štyřicet korun . já myslím , že to je pořád jako levný […]
myslim V korpusu byla vyhledávána i hovorová podoba slovesa myslím, tedy myslim. Korpus zobrazil 1 020 výskytů (výskytů je výrazně více než u spisovné podoby slova). Výsledky byly roztříděny pomocí Konkordance > Jednoduché třídění > Počet tříděných pozic 1, Třídící klíč: Pravý kontext. Po důkladném prozkoumání všech vyhledaných výsledků bylo zjištěno, že pouze ve 21 případech se jednalo buď o opravu, nebo o zpřesnění předcházející informace. (1) […] <mluvčí 1> já nevim , vy tam máte beton , myslim , v tý místnosti tady […] (2) […] <mluvčí 1> nevim , co na osumdesát pět , myslim , na osmdesát , pardon […]
respektive Zadaný dotaz respektive byl v korpusu nalezen celkem 23krát. Po prozkoumání kontextu bylo zjištěno, že ve 20 případech následovala po hledaném výrazu respektive oprava, zpřesnění dříve řečeného. (1) […] <mluvčí 1> musí k němu dostat smlouvy , to znamená , že je vyplní v databošce , respektive zkontroluje , jesi sou tam vyplněný korektně a vygeneruje do pédeefka smlouvu […] (2) […] <mluvčí 1> takže vod tohodle školního roku uzákonili , že sou normálně přednášky povinný . respektive udělali dali tam d* dodatek , že záleží na ... vyučujícím […]
počkej Po zadání výrazu počkej do korpusu bylo získáno 617 výskytů. Výsledky byly roztříděny pomocí funkce Konkordance > Jednoduché třídění > Počet tříděných pozic 1, Třídící klíč: Pravý kontext. Ručně byly vyhledány ty řádky, ve kterých po zadaném výrazu následovala oprava.
32
Bylo zjištěno, že ani v jednom z případů po slově počkej oprava nenásledovala. Tímto slovem se zpravidla přerušil monolog jednoho mluvčího, jiný mluvčí často požadoval zpřesnění řečeného či uvedl věci na pravou míru. V korpusu se vyskytovaly nejčastěji následující slovní spojení: no počkej (35krát), tak počkej (21krát), ale počkej (17krát). (1) […] <mluvčí 1> hele , tys mě posadil za volant . <mluvčí 2> no počkej , ty sis za ten volant sedla . <mluvčí 1> no a co , ale tys mě nechal , že jo […]
neto Ze dříve provedených vyhledávání bylo na základě kontextu usouzeno, že po výrazu neto často následuje oprava. Výraz neto mluvčí použije, když si hned nedokáže vybavit slovo, které chce vyslovit. Výraz neto se v korpusu nacházel 74krát. Ručně byly vyhledávány ty řádky, ve kterých po výrazu neto následovala oprava, v tomto případě slovo, které mělo být původně řečeno místo hledaného výrazu. Takových případů bylo v korpusu 13, viz následující příklady. (1) […] <mluvčí 1> v televizi dávali kulový , no , tak sem neto , nekoukala na televizi […]
V ostatních případech slovo neto zastupuje sloveso, které není blíže specifikováno. (2) […] <mluvčí 1> já bych vám tak ráda dala něco , no . <mluvčí 2> já vim , babičko , ale nic nám neto , nenos […] Tabulka 2: Přehled vyhledávaných oprav zadaný dotaz 1. vlastně 2. teda 3. myslim 4. respektive 5. neto 6. tedy 7. počkej 8. myslím 9. mám na mysli
celkový počet vyhledaných dotazů 500 (redukce) 500 (redukce) 1 020 23 74 98 617 35 2
33
počet dotazů, po kterých následovala oprava 32 27 21 20 13 7 0 0 0
U tohoto typu vyhledávání nebylo možné dotaz zobecnit, vyhledávány byly konkrétní výrazy. Ve všech případech bylo nutné na základě ručního třídění rozhodnout o tom, zda po hledaném výrazu v kontextu následovala, nebo nenásledovala oprava. nedokončené slovo V korpusu mluvené češtiny se nedokončené (nedopovězené) slovo značí hvězdičkou. Aby bylo možné taková slova najít, musel být do korpusu zadán následující dotaz: .*\* Po jeho zadání bylo zobrazeno 6 137 výskytů. Pomocí funkce Frekvenční distribuce byl vytvořen seznam, díky kterému byly zjištěny nejfrekventovanější výrazy: s* ne* t* vo* na* n*
406 339 133 117 105 103
Takto nedokončená slova souvisí s opravami. Zpravidla po nich následovalo slovo, které mělo být původně vysloveno. Např. ři* – řikal, ňá* – ňáký, na*– našel, t* – teda, s* – sem, prob* – probrali, oč* – očividně, jes* – jestli, centime* – centimetr, a* – asi. (1) […] <mluvčí 1> hele , von tu kuchyň nenechal udělat a právě , jak maj tu kraksnu televizi , tak já ne* nevim , jestli von za ní dal padesát tisíc nebo kolik […] Tabulka 3: Nejfrekventovanější nedokončená slova nedokončené slovo 1. s* 2. ne* 3. t* 4. vo* 5.na*
celkový počet vyhledaných dotazů 406 339 133 117 105
nejčastější slova, která následovala si (7krát), se (7krát), sem (4krát) není (9krát), nemůžu (5krát), nevim (4krát) to (23krát), ta (6krát), ty (3krát) von (9krát), vod (5krát), vona (4krát) nad (2krát), nakonec (2krát), naprosto (2krát)
5.3 Typické vyjadřovací prvky spjaté s mluveností Jedná se o prvky, které jsou spjaté s technikou vyjadřování. Mluvčí je používá k získání času k výběru dalších vhodných slov. Text se díky těmto výrazům rozčleňuje na místa obsahově důležitá a významově nezatížená. Jejich použití zároveň usnadňuje posluchačovo vnímání. Prvky spjaté s mluveností stávají na začátku promluvy jako slova, která
34
mají za úkol upoutat posluchačovu pozornost. Po stránce slovnědruhové jsou nesourodá, jedná se o slova, která nemají vyhraněný pojmový obsah a můžou mít ve výpovědi různou platnost (Müllerová, 1966, s. 121). Na základě Müllerové byly vybrány následující výrazy: abych tak řekl, jak říkám, jak řikám, no, no a, no tak, prostě, jaksi, jakoby, jakože, víš co, víš jak. Do této části vyhledávání byly zařazeny další dva rysy, které se pojí s mluveností. Jedná se o nedokončenou výpověď a o přerušenou výpověď (typickou pro dialog). V korpusu byl vyhledáván jako Nový dotaz vždy konkrétní výraz. Podle potřeby byly výsledky roztříděny podle pravého nebo levého kontextu. V některých případech byla použita funkce Konkordance > Statistiky > Kolokace, díky níž byla zjištěna nejčastější slova stojící v pravém či v levém kontextu. abych tak řekl Do vyhledávacího řádku byl zadán dotaz abych tak řekl. Tato formulace se v korpusu nevyskytovala ani jednou. jak říkám Dalším vyhledávaným dotazem bylo slovní spojení jak říkám. Korpusový manažer vyhledal 7 výskytů. (1) […] <mluvčí 1> hlavně sem chodil , jak říkám , třikrát tejdně do posilovny […] (2) […] <mluvčí 1> uvidíme , no . protože jak říkám , no , ta recitační věc je , je trošku problematická v angličtině pro ty malý děti […]
jak řikám Lze předpokládat, že hovorová varianta jak řikám se bude vyskytovat v korpusu častěji než varianta spisovná. Tento předpoklad se potvrdil, po zadání dotazu bylo nalezeno 14 výskytů. (1) […] <mluvčí 1> nebo odkaď by se vůbec jelo ? <mluvčí 2> no tak z Bousova , že jo . <mluvčí 1> v kolik ? <mluvčí 2> no , jak řikám , za devět minut osum […] (2) […] <mluvčí 1> jo , s tou spolužačkou ! <mluvčí 2>... jak sme měli to , ten sraz , jak řikám , jak voni dělali pedagogickou v tom Brně a učijó na základce , ty dvě holky […]
35
no Po zadání dotazu no do korpusu bylo získáno 27 311 výsledků. Výsledky byly omezeny použitím funkce Konkordance > Redukce a v konkordančním seznamu bylo ponecháno náhodných 1 500 řádků. Z okolního kontextu bylo zjištěno, že hledané slovo se ve většině případů používalo pouze jako slovní výplň, např. když se mluvčí rozmýšlel, co říci dále, nebo když znovu konstatoval to, co právě řekl. Jedná se o příklad nadbytečného vyjádření. (1) […] <mluvčí 1> nebo tě pošlou do Jitexu . <mluvčí 2> se samejma jednotkama a šla na prodavačku , no . Jiřka taky . <mluvčí 1> nebylo , no , tenkrát , no . kolik chodilo lidu studovat , no ? no tak neska už bych byla zase třeba chytřejší , viď […]
Slovo no se často opakovalo, viz kapitola 5.4 Opakování. no a Slovní spojení no a se v korpusu vyskytlo 1 502krát. Jednotlivé výskyty byly setříděny pomocí funkce Konkordance > Jednoduché třídění > Počet tříděných pozic: 1, Třídící klíč: Pravý kontext. Tak byly konkordanční řádky seřazeny podle první pozice v pravém kontextu abecedně. Bylo zjištěno, že po vyslovení hledaného slovního spojení následovala často pauza. Nejčastějším slovesem, se kterým se hledaný výraz pojil, byly tvary slovesa říkat (15krát). Slova, která se nejčastěji vyskytovala v okolí hledaného výrazu, byla zjištěna pomocí funkce Konkordance > Statistiky > Kolokace. Nejdříve byl zkoumán pravý kontext (pozice 0, 1). Slova s nejčastějším výskytem v pravém kontextu byla: co (74krát), já (68krát), pak (125krát), tak (70krát), teď (53krát), to (83krát), von (46krát), vona (41krát). Tabulka 4: Nejfrekventovanější slova v pravém kontextu u výrazu no a vyhledávaný výraz
no a
slovo na pozici 0, 1 vpravo pak to co tak já teď von vona
36
výskyt 125 83 74 70 68 53 46 41
(1) […] <mluvčí 1> tak sem mu zavolal . no a řek sem mu jednu věc […] (2) […] <mluvčí 1> zlatíčko , kerý má dietu , jako toho má zase nejvíc opět . <mluvčí 2> no a co ? já si svoji dietu umim užívat […] (3) […] <mluvčí 1> teď jede na tábor . <mluvčí 2> jo ? <mluvčí 1> ve čtvrtek . <mluvčí 2> hmm . <mluvčí 1> no . no a pak bych chtěla v srpnu asi jet na tu chatu , no […]
V levém kontextu se nejčastěji nacházely tyto výrazy (pozice -2, 0): a (24krát), jo (77krát), no (83krát), to (37krát). Pomocí funkce Konkordance > Jednoduché třídění bylo provedeno třídění konkordančních řádků podle levého kontextu abecedně. V necelém tisíci případů se slovní spojení no a vyskytovalo na začátku nové promluvy, často po předcházející delší odmlce. Ve většině případů takto započatá výpověď obsahovala odlišné téma než předchozí kontext. Lze tvrdit, že slovním spojením no a se zpravidla uvozuje výpověď, která přináší do debaty nové téma. Tabulka 5: Nejfrekventovanější slova v levém kontextu u výrazu no a vyhledávaný výraz slova na pozici -2, 0 vlevo výskyt no 83 jo 77 no a to 37 a 24 (4) […] <mluvčí 1> on ten pan NP si to postavil ten barák jako pro sebe , ... <mluvčí 2> jojo . ... <mluvčí 1> no a pak se rozvedl , tak tam voni v tom baráku nebydlí […] (5) […] <mluvčí 1> no tak už se vracet nebudem , no . von stejně chce síct ještě a to , tak ...: <mluvčí 2> no a kam pudem na ty houby ? […] (6) […] <mluvčí 1> potom sem si udělala oběd , já měla vod včerejška ten zapečenej květák a . <mluvčí 2> no a voni zejtra pojedou až odpoledne , prej kolem druhý hodiny […]
no tak Dalším zadaným dotazem bylo slovní spojení no tak. V korpusu se objevilo 822 výskytů. Výsledky vyhledávání byly roztříděny pomocí funkce Konkordance > Jednoduché třídění > Počet tříděných pozic 3, Třídící klíč: Levý kontext. Vyhledávána byla ta slova či slovní spojení, po kterých výraz no tak následoval. Nejčastěji (v 138 případech) se vyskytoval po pauze, smíchu, hezitačních zvucích atp. Výraz no tak se na základě prozkoumaných kontextů používá tehdy, když se po delší pauze znovu pokraču-
37
je v mluvení. V 50 případech následoval po různých tvarech slovesa říkat. Ve zbylých případech se hledané slovní spojení ve velké většině objevovalo po kratší pauze. (1) […] <mluvčí 1> kdysi dávno třeba , když sem byl chlapeček , tak sem si řikal : " no tak holčičky sou hezký , tak já budu holčička . " nebo něco takovýho víš , ale […] (2) […] <mluvčí 1> dokaď maj shnilý banány za štyři koruny , ... <mluvčí 2> no . <mluvčí 1> ... no tak nekup to , viď , jako […] (3) […] <mluvčí 1> až vo půl dvanáctý tam mám bejt . <mluvčí 2> ... eee , no tak to se vyspíš . <mluvčí 1> hmm . <mluvčí 2> to sou ty líný vysokoškoláci […]
Dalším předmětem zkoumání bylo, zda existuje nějaká pravidelnost v tom, co se vyskytuje za hledaným slovním spojením no tak. Výsledky byly roztříděny podle pravého kontextu. Na základě tohoto roztřídění bylo zjištěno, že se po slovním spojení no tak nejčastěji vyskytovalo zájmeno (já – 48krát, to – 144krát, tvary zájmen 3. osoby jednotného i množného čísla – 34krát, zvratná zájmena se a si – 19krát), příslovce (už – 9krát, dyž/když – 20krát, jako – 21krát), tvary slovesa být – 36krát, z nich nejčastěji tvary sem a sme. Tabulka 6: Nejfrekventovanější slova v pravém kontextu u výrazu no tak vyhledávaný výraz slova na pozici 0, 1 vpravo výskyt to 144 já 48 tvary slovesa být 36 tvary zájmen 3. os. (sg. i pl.) 34 no tak jako 21 dyž/když 20 zvratná zájmena se a si 19 už 9
prostě Do vyhledávacího řádku byl zadán dotaz prostě. Korpusový manažer vyhledal 4 877 výskytů. Výsledky byly roztříděny pomocí Konkordance > Jednoduché třídění > Počet tříděných pozic 3, Třídící klíč: Levý kontext. Byla vyhledávána nejčastější slova či slovní spojení, po kterých hledaný výraz následoval.
38
Nejčastější výrazy před hledaným slovem byly: 297krát zájmeno to, z toho šlo v 35 případech konkrétně o spojení slov je to prostě; 292krát spojka že; 173krát stála před hledaným výrazem spojka a; 138krát spojka ale. Tabulka 7: Nejfrekventovanější slova v levém kontextu u výrazu prostě vyhledávaný výraz slova na pozici 0, 1 vlevo výskyt
prostě
to
297
že
292
a
173
ale
138
(1) […] <mluvčí 1> vono to neni jenom vo tý trpělivosti , tam je to prostě i o tom , že musíš se ovládat strašně , jo ? […] (2) […] <mluvčí 1> já bych , já bych navrhnul , že prostě po sezóně bysme si měli sednout a prostě zvolit si kapitána na příští sezónu […]
Zajímavý byl výskyt slova takže před slovem prostě, který byl nalezen 38krát. Vzniklo tak spojení takže prostě, které samo o sobě v daném kontextu nemělo žádnou výpovědní hodnotu, jedná se o nadbytečnost vyjadřování, viz následující příklad. (3) […] <mluvčí 1> já sem to předtím nepodal , já sem to prošvihl ten termín , takže prostě sem musel narukovat a jinak to nešlo […]
Pravý kontext byl zkoumán opět pomocí funkce Konkordance > Jednoduché třídění > Počet tříděných pozic 3, Třídící klíč: Pravý kontext. Za hledaným výrazem prostě se nejčastěji vyskytovaly tvary slovesa být. (4) […] <mluvčí 1> umřel ! za vlast . <mluvčí 2> ... no , umřel za vlast , ale prostě byl hrdina , jo . […] (5) […] <mluvčí 1> v Úvence . <mluvčí 2> a to je co ? <mluvčí 1> Ústřední vojenská nemocnice , že jo , co tam sou ty , prostě je to pro ty poslance a tadydlety vla* vládní činitele jako […]
Další častá slova: to (180krát), jako (93krát), se (92krát). Slovo prostě bylo ve většině případů použito jako slovní výplň, následovaly po něm nejrůznější slovní druhy a tvary, žádný z nich výrazně nepřevyšoval ostatní. Jen minimálně byl hledaný výraz použit v původním významu slova – tedy že je něco jednoduché.
39
Tabulka 8: Nejfrekventovanější slova v pravém kontextu u výrazu prostě vyhledávaný výraz slova na pozici 0, 1 vlevo výskyt to 180 jako 93 prostě se 92
jaksi Po zadání dotazu jaksi vyhledal korpus 25 výskytů. Z kontextu bylo zjevné, že toto slovo bylo ve všech případech použito pouze jako slovní výplň. Užitím je velice podobné slovům vlastně či prostě. (1) […] <mluvčí 1> dědičnost na todleto nemá vliv . to je prostě skladbou stravy , životním jaksi režimem a takovýdle . to neovlivníš […] (2) […] <mluvčí 1> a to si myslim , že je pro tu Spartu jaksi příznačný , ty dobré , ty dobrý podzimy a špatný jara […]
jakoby Zadaný dotaz jakoby se v korpusu vyskytoval 570krát. Jednotlivé výskyty byly tříděny ručně, vyhledávané slovo se často vyskytovalo na konci promluvy (např. před pauzou) a zpravidla bylo použito pouze jako slovní výplň (jedná se o příklad nadbytečného vyjadřování). (1) […] <mluvčí 1> neska bude výměna manželek ňáká , že bude jako jedna normálně rodina a druhá rodina budou dvě lesbičky jakoby . a ta lesbička jedna pude jako do tý normální rodiny a ...: <mluvčí 2> tak to chci vidět . to bude zajímavý […] (2) […] <mluvčí 1> ani si to kůli tomu nebudu číst , ale , ale prostě ten film jakoby , je tam přesně to , že to je zahraný tak , že tam nepotřebuješ mít takovej ten vnitřní vyprávěcí hlas […]
jakože V korpusu byl vyhledáván výraz jakože. Získaný počet výskytů byl 111. Podle okolního kontextu bylo zjištěno, že výraz jakože byl použit jako slovní výplň nebo v případě, když se jeden mluvčí ujišťoval, zda rozumí druhému mluvčímu. Viz následující příklady. (1) […] <mluvčí 1> ale výhodná sada , tak , je* , nekoupíme si něco do zálohy ? <mluvčí 2> jakože bysme si to skovali domů do ledničky ? […] (2) […] <mluvčí 1> tam ty dudy dával , ty jo , von na to fakt asi umí .
40
<mluvčí 2> no , jakože hrál takovou tu boží melodii , jako vždycky , dyž sou v ňákym filmu dudy […]
víš co Po zadání dotazu víš co bylo vyhledáno 697 výskytů. Ve 114 případech po vyhledávaném výrazu následovala pauza. Nejčastěji se v pravém kontextu na pozici 1 a 2 vyskytovala tato slova: já (67krát), to (48krát), tak (33krát), a (33krát). Vyhledávané slovní spojení bylo vůči okolnímu kontextu použito nadbytečně, jedná se o prvek dialogičnosti (mluvčí se takto obracel k posluchači). (1) […] <mluvčí 1> prostě uplně trpim takovou strašnou žárlivostí , víš co , ale uplně vražednou , víš co , že já žárlim sám i na sebe , víš co . a to je docela , to už je docela na cvokaře , víš co […]
víš jak Hledaný dotaz víš jak se v korpusu vyskytoval desetkrát. Ve čtyřech případech nešlo o slovní výplň, viz příklad. (1) […] <mluvčí 1> já sem právě , víš jak sou takový ty na kabely , takový ty drátky vomotaný umělinou , tak ty sou na to ideální […]
V ostatních případech nemělo hledané slovní spojení samo o sobě žádný význam, sloužilo spíše k udržení posluchačovy pozornosti. (2) […] <mluvčí 1> řikala , abych si nenechal ujet vlak . <mluvčí 2> a hlavně se uč . (smích) jo , jo , Básníci , víš jak . <mluvčí 1> to bylo přesný , ty jo […] Tabulka 9: Přehled vyhledávaných prvků spjatých s mluveností a jejich frekvence vyhledávané výrazy celkový počet výskytů 1. no 27 311 2. prostě 4 877 3. no a 1 502 4. no tak 822 5. víš co 697 6. jakoby 570 7. jakože 111 8. jaksi 25 9. jak řikám 14 10. víš jak 10 11. jak říkám 7 12. abych tak řekl 0
41
Vyhledávání prvků spojených s mluveností nebylo možné zobecnit, protože byly vyhledávány konkrétní případy, které nemají společné znaky, na jejichž základě by bylo možné vytvořit univerzální dotaz pro jejich vyhledávání. přerušená výpověď Zadaný dotaz \... (tedy označení pro přerušenou výpověď) se v korpusu vyskytoval celkem v 30 662 případech. Pomocí funkce Konkordance > Statistiky > Kolokace byly zjištěny nejčastější kolokace na pozici 1 napravo od vyhledaného dotazu. Nejčastější byla tato slova: no (2 748krát), a (1 998krát), to (1 361krát), jo (1 100krát). Po přerušení výpovědi aktuálního mluvčího vždy následovala výpověď jiného mluvčího. (1) […] <mluvčí 1> v sobotu sem malovala obyvák , a vypadá , jak kdyby nebyl vymalovanej , ta barva je , ... <mluvčí 2> proč to malujete ? to sežere stejně to vápno <mluvčí 1> ... asi to sežralo to vápno . […]
Stejným způsobem byla zjištěna nejčastější slova, která se vyskytovala v levém kontextu na pozici -1: a (344krát), to (201krát), tak (152krát). Nejčastěji se před označením přerušené výpovědi vyskytovala pauza (10 508krát) a čárka (8 371krát). (2) […] <mluvčí 1> já bych řekla , že to je mihule , protože ... <mluvčí 2> vypadám tak , viď . <mluvčí 1> ... mihule je uplně všechno , co je naprosto neidentifikovatelný . (smích) <mluvčí 2> hmm , tohle je tuleň […]
nedokončená výpověď Po zadání dotazu \...: do korpusu bylo nalezeno 10 119 výskytů označení nedokončené výpovědi (věty). V 2 972 případech se jednalo o nedokončenou větu jednoho mluvčího, který poté pokračoval dále v mluvení. Výpověď byla nedokončená např. kvůli smíchu, kašli. Nejčastěji se mluvčí sám zastavil a začal větu formulovat jinak nebo začal mluvit o něčem zcela jiném. Za nedokončením výpovědi stály často zjevné formulační problémy mluvčího. (1) […] <mluvčí 1> co si dáte k pití ? můžu vám nabídnout kafe ? dáte si kafe , Jirko ? přeto , pře* pře* ...: nebo turka ? <mluvčí 2> ne , normálního turka . <mluvčí 1> normálního turka . […] (2) […] <mluvčí 1> ale došlo mi , že Bobík asi vidličkou nejí , viď , tak ...: (smích) tak dem , nebo co ?
42
<mluvčí 2> a už máš vypitý všechny limonády , abys měla plastový lahve ? […]
V 7 147 případech následovala po nedokončené výpovědi jednoho mluvčího výpověď jiného mluvčího. (3) […] <mluvčí 1> kolik je štyrykrát litr a půl ? <mluvčí 2> tak to bude tak šest litrů . <mluvčí 1> šest litrů . <mluvčí 2> plus dva to je , ... <mluvčí 1> vosum . vosum litrů . <mluvčí 2> ... vosum litrů . to je ...: <mluvčí 1> šestnáct piv . […]
Pomocí funkce Konkordance > Statistiky > Kolokace byly zjištěny nejčastější kolokace na pozici 1 napravo od vyhledaného dotazu. Jednalo se o následující výrazy: no (982krát), a (803krát), to (543krát), já (502krát). Stejným způsobem byly zjištěny nejčastější kolokace na pozici -1 vlevo. Nejčastější slova, která předcházela hledanému výrazu, byla: a (759krát), to (679krát), ale (375krát), tak (367krát).
5.4 Opakování Opakování může být buď nezáměrné, nebo záměrné. Nezáměrné opakování je dáno těmito faktory: neschopností mluvčího pohotově reagovat na řečové podněty (zpravidla otázky) partnera ve spontánních mluvených konverzacích a afektem mluvčího. Záměrné opakování má tři základní funkce. Jedná se o funkci zesilovací, zdůrazňovací a navazovací (Encyklopedický slovník češtiny, 2002, s. 294). Vycházelo se z předpokladu, že v korpusu mluvené češtiny ORAL2008 se vyskytuje více nezáměrného opakování. Na základě toho byly s pomocí literatury vybrány následující výrazy: ano, áno, jo, jó, ne, né, no, nó, takže, počkej, hele, jako, nevím, nevim, jsem, sem (=jsem), ten, ta, to, já, ty, on, von, ona, vona, ono, vono, oni, voni, ony, vony, ti. Vyhledávána byla pouze ta opakování, která stála bezprostředně za sebou (mezi nimi mohla být interpunkce). Vyhledáván byl vždy konkrétní výraz (někdy přímo určitý počet opakování – např. ano ano). Výsledky byly seřazeny podle pravého nebo levého kontextu (pokud to bylo nutné), následovalo ruční třídění, na jehož základě bylo rozhodnuto, zda po vyhledaném výrazu následuje nebo nenásleduje opakování. Nevyhovující výsledky byly odstraněny.
43
ano a) ano ano Do vyhledávacího řádku byl zadán dotaz ano ano s mezerou mezi slovy. V korpusu se vyskytovaly pouze dva výsledky odpovídající zadanému dotazu. Po bližším prozkoumání bylo ovšem zjištěno, že se v obou případech jednalo o stejný výsledek. Slovo ano se objevilo v jednom kontextu hned třikrát po sobě a vyhledávač proto zobrazil dva řádky s výskyty. Z toho vyplývá, že hledaný výraz se v korpusu vlastně nevyskytoval. b) ano ano ano V korpusu bylo vyhledáváno třikrát slovo ano, vždy s mezerou mezi jednotlivými slovy. Tento typ opakování slova ano se vyskytoval v korpusu pouze jednou. (1) […] <mluvčí 1> --- hned se mnou , já ti --- . <mluvčí 2> ano ano ano . <mluvčí 1> jo . já už vás nebudu zdržovat […]
Více než třikrát za sebou (vždy s mezerou či interpunkcí mezi slovy) se slovo ano v korpusu nevyskytovalo. c) anoano Vyhledáváno bylo opět slovo ano, tentokrát však bez mezery mezi slovy, napsáno dvakrát po sobě. Žádný výskyt však nebyl nalezen. d) anoanoano Z předcházejícího nulového výsledku v korpusu na dotaz anoano se může zdát zbytečné vyhledávat výraz ještě s jedním ano navíc. Jedná se však o zcela odlišné slovo. Zadán byl tedy následující dotaz: anoanoano. V korpusu byl nalezen jednou, viz následující příklad. (1) […] <mluvčí 1> čim rychlejší budete mít tu kartu , ... <mluvčí 2> a , jasně , tak tim ...: <mluvčí 1> ... cvak . <mluvčí 2> anoanoano . <mluvčí 1> tak tim ty karty se taky liší samozřejmě , podle toho je taky cena […]
Více než třikrát po sobě (bez mezery mezi jednotlivými slovy) nebylo v korpusu ano nalezeno. Po čárce se ano opakovalo v 72 případech (nejvíce čtyřikrát). Slovo áno se v korpusu vyskytovalo dvakrát, ani v jednom případě nešlo o opakování. jo a) jo jo Zadaný dotaz jo jo s mezerou mezi slovy se v korpusu objevil 45krát. Počet výsledků byl ručním tříděním zúžen na 22. V některých případech se totiž slovo jo vy-
44
skytlo více než dvakrát za sebou, proto byly takové výsledky odstraněny. Ve většině případů bylo spojení jo jo horlivým přitakáním, či jakýmsi povzdechnutím. (1) […] <mluvčí 1> pod svícnem je opravdu tma . <mluvčí 2> jo jo , to určitě […] (2) […] <mluvčí 1> takže si to natrénujte tak , abyste chodili --- , abyste se k nim zkrátka přidali <mluvčí 2> jo jo . to už tak bylo […]
b) jo jo jo Jako Nový dotaz bylo zadáno slovo jo třikrát za sebou, vždy s mezerou mezi jednotlivými slovy. Zobrazilo se 11 výskytů. Po vytřídění řádků, které obsahovaly více výrazů jo než tři, zůstalo 8 výskytů. Na základě kontextu lze tvrdit, že se jednalo opět buď o povzdechnutí, či o horlivé přitakání. (1) […] <mluvčí 1> řikala , že se menuje Petr nějakej nevim a mně nedošlo , že to je von jako . <mluvčí 2> no , jo jo jo . Petr NP a řiká se mu Bob , no […]
Nejvíce se slovo jo vyskytovalo v korpusu bezprostředně za sebou a s mezerami mezi jednotlivými slovy čtyřikrát (jeden případ). c) jojo Další zadaný dotaz byl následující: jojo. V korpusu se nacházel 67krát. Opět se jednalo buď o povzdech, přitakání či jakousi vsuvku (slovní výplň). (1) […] <mluvčí 1> takže , řikám , před ředitelnou kůli tomu stepovat nebudu . <mluvčí 2> hmm . <mluvčí 1> jojo , ono se to blbě poslouchá […] (2) […] <mluvčí 1> von má asi čtyři kluky . tak ten jeden kluk se voženil a oni teď bydlej nahoře . <mluvčí 2> jojo . <mluvčí 1> no , a tak maj toho psa a on dycky --- […]
d) jojojo Dotaz zůstal stejný jako ten předchozí, jen se připsalo jedno jo navíc. Výsledků bylo překvapivě více než u předchozího dotazu, v korpusu bylo nalezeno 161 výskytů. Po bližším prozkoumání kontextu bylo zjištěno, že hledaný výraz byl použit především jako horlivé přitakání, povzdechnutí nebo slovní výplň. (1) […] <mluvčí 1> vona nemá žádný děti , ale vona má ňákýho přítele a ten má asi děti nebo já nevim . <mluvčí 2> jojojo , takle ! hmm . tak to jo […] (2) […] <mluvčí 1> no , Strach nad městem nebo tak ňák . <mluvčí 2> no . jo , nad městem . <mluvčí 1> jojojo . to bude vono […]
Slovo jo se za sebou bez mezery v korpusu dále vyskytovalo čtyřikrát (6 výskytů), pětkrát (1 výskyt) a jedenáctkrát (1 výskyt), viz následující příklad.
45
(1) […] <mluvčí 1> tak to votevřete rovnou ty dveře tam . <mluvčí 2> neurvi stránky . <mluvčí 1> jojojojojojojojojojojo . <mluvčí 2> (smích) počkej , to neřikej , to se bude blbě přepisovat […]
Po čárce se jo opakovalo 195krát (nejvíce třikrát). Slovo jó s dlouhým vokálem se v korpusu opakovalo pouze dvakrát po sobě s mezerou (zadaný dotaz: jó jó), nalezeny byly dva výskyty. (1) […] <mluvčí 1> pak sme byli u takový tý a pak sme byli ... <mluvčí 2> jo . <mluvčí 1> ... tady u toho . <mluvčí 2> jó jó . <mluvčí 1> a tady byla ... <mluvčí 2> já už vim . <mluvčí 1> ... cesta […]
ne a) ne ne Zadaným dotazem bylo tentokrát dvakrát slovo ne (s mezerou mezi slovy). V korpusu bylo nalezeno 31 výsledků. Po ručním třídění a odstranění nevyhovujících řádků zůstalo 8 výskytů (Některé řádky obsahovaly více ne za sebou, proto musely být odstraněny.). (1) […] <mluvčí 1> nepracuješ tam na černo , náhodou ? <mluvčí 2> ne ne , mám pracovní povolení […] (2) […] <mluvčí 1> Ondro , chceš eště bramboráček ? <mluvčí 2> ne ne , vážně . děkuju . nechci […]
b) ne ne ne Vyhledávaný výraz ne ne ne se v korpusu vyskytoval 11krát. Nevyhovující řádky s více opakováními byly smazány. Zbylo tak 8 výskytů. Jednalo se vždy o zdůrazněný zápor. (1) […] <mluvčí 1> ale neviděli sme žádný vožralý moc . <mluvčí 2> ne ne ne . <mluvčí 1> no , to my taky ne . […]
Nejvíce se slovo ne v korpusu opakovalo pětkrát za sebou (1 výskyt). (2) […] <mluvčí 1> to bylo zrušený ? --- pak . <mluvčí 2> no . <mluvčí 3> ne ne ne ne ne , to se dělalo , nejdřív se dělalo kratší dobu […]
c) nene Jako Nový dotaz byl zadán výraz nene. Získáno bylo 48 výskytů. Ve všech případech šlo o zdůraznění nesouhlasu.
46
(1) […] <mluvčí 1> takže chceš něco sladkýho nebo kafíčko nebo něco ? <mluvčí 2> nene , já si nedám .[…]
d) nenene Vyhledávaný dotaz nenene se v korpusu vyskytoval 92krát. Z toho se v jednom případě tvar nenene objevil dokonce dvakrát po sobě (po čárce). (1) […] <mluvčí 1> jé , kafíčko , nenene , nebudeš bumbat kafíčko , to bys pak blbě spala , hele […] (2) […] <mluvčí 1> to ste byli asi venku spíš , na chodbě . <mluvčí 2> nenene , nenene , to víš , že bysme šli ven , aby nás tam všichni viděli […]
Po čárce se hledaný výraz opakoval ve 128 případech (až pětkrát). Opakování varianty slova s dlouhým vokálem (né) se v korpusu nevyskytovalo s mezerami ani bez mezer. no a) no no Do vyhledávacího řádku byl zadán dotaz no no. Počet nalezených výskytů byl 66. Výsledky byly ručně vytříděny tak, aby neobsahovaly řádky, ve kterých se slovo no opakovalo více než dvakrát po sobě. Zbylo tak pouhých 15 řádků. Ve všech případech se jedná o přitakání. (1) […] <mluvčí 1> jinak spolu asi nic neměli , nó . <mluvčí 2> no snad , že jo . <mluvčí 1> myslim , no no . a kdyby , ne , i kdyby . <mluvčí 2> no , to člověk nikdy neví , tak to už je dávno […]
b) no no no Vyhledávaný dotaz byl stejný jako ten předešlý, jen obsahoval jedno no navíc. Získáno bylo 24 výskytů. Odstraněny byly ty řádky, ve kterých se slovo no vyskytovalo více než třikrát za sebou. Nejvíce bylo slovo no použito šestkrát po sobě, a to v jednom případě (případ, kdy by bylo slovo no použité po sobě čtyřikrát nebo pětkrát, nebyl v korpusu doložen). Po vytřídění zůstalo 20 řádků. Opět byl prostřednictvím opakování těchto slov zdůrazněn souhlas. (1) […] <mluvčí 1> dycky byly dva krámy , vchody , dva krámy a vchody . <mluvčí 2> no no no , vidiš […] (2) […] <mluvčí 1> jo takle , ty myslíš , že tam nemaj todle . <mluvčí 2> tam sou křížkový , se vyšívaj , ... <mluvčí 1> no , no , no no no no , já sem to viděla […]
c) nono Zadaný dotaz nono se v korpusu vyskytoval ve 23 případech. V sedmi z nich se před hledaným výrazem objevilo samostatně další no. (1) […] <mluvčí 1> no , to si řikal , do Liďáku ňák na šipky nebo ...:
47
<mluvčí 2> do Liďáku , no , nono , a pak sme tam ňák kecali a hráli sme šipky a dělali tam různý voloviny […] (2) […] <mluvčí 1> von je tam ňákej adobe konvertor nebo něco takovýho nebo ... <mluvčí 2> nono . <mluvčí 1> ... destiler , adobe destiler . <mluvčí 2> jojojo , to tam je […]
d) nonono Do vyhledávacího řádku byl zadán dotaz nonono. Korpus obsahoval 205 takových výskytů. Výsledky byly seřazeny abecedně podle levého kontextu takto: Konkordance > Jednoduché třídění > Počet tříděných pozic 3, Třídící klíč: Levý kontext. Hlavním cílem tohoto třídění bylo zjistit, která slova či slovní spojení nejčastěji stála před výrazem nonono. Ve 20 případech předcházela použítí nonono otázka zjišťovací. (1) […] <mluvčí 1> Zuzka dělá v Oskaru . <mluvčí 2> tak my sme tým , ale ten tým ...: <mluvčí 1> počkej , ty děláš v Oskaru ? <mluvčí 2> nonono . <mluvčí 1> prosim tě , jakej si mám pořídit tarif ? […]
Ve 22 řádcích se před hledaným výrazem objevilo minimálně ještě jednou slovo no (je ovšem oddělenou pauzou). Výsledky byly seřazeny také podle pravého kontextu. Po hledaném výrazu nejčastěji následovaly tato slova: a (23krát), tak (18krát), no (17krát), já (11krát), to (10krát). (2) […] <mluvčí 1> nebo proč ? <mluvčí 2> nonono . <mluvčí 1> a to Jaruška tam neni jako sociální pracovnice ? […] (3) […] <mluvčí 1> budou vajíčka ... <mluvčí 2> vajíčka ! <mluvčí 1>... a je to poslední asi před Velikonocema <mluvčí 2> nonono . <mluvčí 1> tak si řekni , jestli chceš […]
e) nononono Vzhledem k vysokému počtu nalezených výsledků u předchozího vyhledávání byl v korpusu vyhledáván i následující dotaz: nononono. Zobrazeno bylo 6 výskytů. (1) […] <mluvčí 1> jo , jo takovej jako barák ... <mluvčí 2>... spořitelna , ták . <mluvčí 1>... jednopatrovej ňákej . ano .
48
<mluvčí 2> nononono . […]
f) nonononono Vyhledáváno bylo i slovo no psáno pětkrát po sobě bez mezery. Vyhledávač nalezl dokonce i tento výraz, i když jen jednou. Vícekrát se slovo no v korpusu po sobě neobjevilo (psáno bez mezer). (1) […] <mluvčí 1> ale no , to já vim , no , ale myslela sem , že už , já sem teda mimoň v tomdlectom . <mluvčí 2> nonononono […]
Po čárce se slovo no opakovalo 487krát (nejvíce pětkrát). Vyhledáváno bylo i opakování varianty s dlouhými vokály. Psáno s mezerami se slovo nó v korpusu opakovalo pouze dvakrát po sobě (1 výskyt). Psáno bez mezer nebylo nalezeno žádné opakování. (1) […] <mluvčí 1> byl tam nádhernej výhled . <mluvčí 2> Mojstrovka . <mluvčí 1> jo jo , Malá a Velká Mojstrovka , nó nó , tak to je vono . to je vono , jo . ty sou fak hezký […] Tabulka 10: Přehled vyhledávaných opakování I vyhledávané slovo typ opakování výskyt celkový počet odděleno mezerami 1 psáno dohromady 1 ano 74 odděleno čárkou 72 všechna opakování 0 0 áno odděleno mezerami 31 psáno dohromady 236 jo 462 odděleno čárkou 195 všechna opakování 2 2 jó odděleno mezerami 17 psáno dohromady 140 ne 285 odděleno čárkou 128 všechna opakování 0 0 né odděleno mezerami 36 psáno dohromady 235 no 758 odděleno čárkou 487 všechna opakování 1 1 nó
takže a) takže takže Jako Nový dotaz bylo zadáno dvakrát slovo takže s mezerou mezi jednotlivými slovy. Korpus nezobrazil žádný výsledek, což se zdálo zvláštní. Vyhledáváno bylo tedy slovo takže pouze jednou. V korpusu se vyskytovalo 2 570krát. Výskyty
49
byly seřazeny podle pravého kontextu. Ručně byla hledána opakování slova takže v pravém kontextu (předpokládalo se, že se mohlo vyskytovat po nějakém interpunkčním znaménku). Nalezeno bylo 45 případů. Mezi dvěma slovy takže se vyskytovala čárka, proto se u prvního vyhledávání nezobrazil žádný výsledek. (1) […] <mluvčí 1> jak rychle jedem ? <mluvčí 2> hmm , asi takle . <mluvčí 1> to je docela dost . <mluvčí 2> jasně . <mluvčí 1> takže , takže je to rychlejší , než kdybysme šly […]
Více než dvakrát po sobě se slovo takže v korpusu nevyskytovalo. b) takžetakže Do korpusu byl zadán i následující dotaz: takžetakže. Žádné opakování bez mezer však nebylo nalezeno. počkej Dotaz počkej počkej byl zadán do vyhledávacího řádku, získán byl pouze jeden výskyt. Lze předpokládat, že se jednalo o stejný případ jako v předcházejícím vyhledávání. Slovo počkej bylo zadáno pouze jednou, bez opakování, a výsledky vyhledávání byly seřazeny podle pravého kontextu (jednalo se o 617 výskytů). Ve 24 případech se slovo počkej opakovalo minimálně dvakrát za sebou. Objeveny byly i případy, ve kterých se slovo opakuje třikrát (jedná se o šest výskytů), jednou dokonce čtyřikrát po sobě. (1) […] <mluvčí 1> mělo to asi štyrycet mega , jo , ne* nevíš prostě , jak bych si to udělal , aby to bylo trošku menší ? <mluvčí 2> počkej , počkej , počkej , eště jednou mi to pověz […]
hele Protože opakování slova hele nebylo nalezeno s mezerou ani bez mezery, byl zvolen stejný postup jako u předcházejícího vyhledávání. Do vyhledávacího řádku bylo zadáno slovo hele. Získáno bylo 1 469 výskytů. Kontext byl abecedně seřazen prostřednictvím Konkordance > Jednoduché třídění > Počet tříděných pozic 3, Třídící klíč: Pravý kontext. Hledaly se případy, ve kterých se hledaný výraz v kontextu opakoval po čárce nebo po pauze. Jednalo se o 6 výskytů, z toho v jednom případě se slovo hele opakovalo čtyřikrát po sobě. (1) […] <mluvčí 1> prosim vás , běžte už spát . <mluvčí 2> pojďte , hele , hele , kašlem na to […]
50
jako V korpusu bylo vyhledáváno opakování slova jako. Dotaz byl zadán do vyhledávače, mezi dvěma slovy jako byla mezera. Zobrazeny byly pouhé 2 výskyty. Slovo jako bylo v následujícím případě zadáno do korpusu pouze jednou. Zobrazilo se 11 913 řádků. Ty byly seřazeny abecedně podle pravého kontextu, hledala se opakování slova jako, která následovala po čárkách či po pauzách. Takových výskytů bylo nalezeno 94. Použitím výrazu jako dvakrát po sobě mluvčí zpravidla hledal vhodná slova, která budou v jeho promluvě následovat. Opakováním získával čas na rozmyšlenou. (1) […] <mluvčí 1> von je šéfredaktor i v Mělníku teďkon . <mluvčí 2> a jaký to je ? <mluvčí 1> tam . normální . jako , jako brigáda , dyž sme tam byli […]
nevim Jako Nový dotaz bylo zadáno slovo nevim. V korpusu se vyskytuje 3 281krát. Abecedně byl seřazen pravý kontext a hledaly se ty řádky, ve kterých byl hledaný výraz zopakován. Takových jich bylo 32. Ve všech nalezených případech šlo pouze o potvrzení toho, že mluvčí neví, nebo že si nemůže vzpomenout. (1) […] <mluvčí 1> a už víš , kdy budeš malovat ? <mluvčí 2> no , nevim , nevim , dyť eště nemam to číslo jeho […]
U spisovného tvaru nevím v korpusu nebylo doloženo opakování slova. přesně Do vyhledávacího řádku byl zadán dotaz přesně. Zobrazeno bylo 474 výskytů. První tři slova v pravém kontextu byly pomocí funkce Konkordance seřazeny abecedně. V 17 případech se hledané slovo opakovalo po čárce či po pauze. (1) […] <mluvčí 1> moc krásně to popsala Věra Chytilová ve film* ve filmu Panelstory , protože to bylo přesně , přesně z tý doby a eee tak […]
jsem V korpusu bylo vyhledáváno slovo jsem. Získáno bylo 11 výskytů. Ani v jednom z výskytů se však hledané slovo v okolním kontextu neopakovalo. Vzhledem k tomu, že korpus ORAL2008 je korpusem mluveného jazyka, lze předpokládat, že bude obsahovat spíše hovorovou variantu slova jsem, tedy sem.
51
sem (=jsem) Do korpusu byl zadán dotaz sem sem. Získaných výskytů bylo 13. Ve všech třinácti případech šlo však o kombinaci sem (=jsem) a příslovce sem. Nejednalo se o opakování téhož slova. (1) […] <mluvčí 1> pani NP , já sem byl přesně takovej jako vy , dyž sem sem jezdil autobusem […]
Z tohoto důvodu bylo slovo sem znovu vyhledáno samostatně. Získáno bylo 13 940 výsledků. Ty byly abecedně seřazeny podle pravého kontextu, hledala se opakování, která se vyskytovala po čárce či po pauze. Opět se musely odstranit i ty řádky, ve kterých se opakovalo slovo sem jako příslovce. Po vyloučení nevyhovujících řádků zbylo 14 výskytů opakování. (2) […] <mluvčí 1> a tak von říkal , jako že by nebylo problém dělat tu ročníkovou práci zrovna tam , takže jako sem , sem docela rád , prej mi poskytnou nějaký materiály […] Tabulka 11: Přehled vyhledávaných opakování II počet řádků, ve kterých vyhledávaný výraz došlo k opakování výrazu (vždy po interpunkci) jako 92 takže 45 nevim 32 počkej 31 přesně 17 sem (=jsem) 14 hele 6 nevím 0 jsem 0
ukazovací zájmena U ukazovacích zájmen byl vyhledáván pouze nominativ singuláru, který byl vytipován jako nejčastěji používaný. a) ten Jako Nový dotaz bylo vyhledáváno slovo ten. Zobrazeno bylo 5 813 výskytů. Pravý kontext byl seřazen podle abecedy, tříděny byly první tři pozice. Ručně byly vyhledávány ty řádky, ve kterých se slovo ten vyskytovalo nejméně dvakrát po sobě (po čárce). Takových výsledků bylo 119. Nejvíce se slovo ten opakovalo třikrát po sobě. (1) […] <mluvčí 1> ale to je totální buran . totální , absolutní , jo . ten , ten , ten se , se neumí chovat , jo . <mluvčí 2> to teda neumí […]
52
b) ta Postup vyhledávání byl stejný jako u předcházejícího zájmena. Získáno bylo 2 968 výsledků vyhledávání. Pravý kontext byl opět seřazen abecedně podle prvních tří pozic. Po ručním třídění bylo zjištěno, že slovo ta se opakovalo v 47 případech (vždy nejvíce dvakrát po sobě). (1) […] <mluvčí 1> sem musel koupit novou baterku taky už tam . <mluvčí 1> no . <mluvčí 2> tak ta , ta nebyla drahá , to stála asi dvě stě šedesát korun […]
c) to Jako Nový dotaz bylo zadáno slovo to. Korpus vyhledal 54 391 výskytů. Abecedně byly seřazeny první tři pozice pravého kontextu a vyhledávány byly ty případy, ve kterých se slovo to opakovalo nejméně dvakrát po sobě. Takových řádků bylo 630. Nejvíce se hledané slovo opakovalo čtyřikrát po sobě (1 výskyt). (1) […] <mluvčí 1> no , a pak sem jel taky tady za Prahou , takovýho ňákýho , to , to byla rodina ňákýho hudebníka někde ňáký kapely , bubeník , a jeho pani […] (2) […] <mluvčí 1> no , to , ježiš ani ...: <mluvčí 2> to to to to , si myslel NP , že za to moh von , že sem si zlomil ruku […]
osobní zájmena (spisovné i hovorové varianty) a) já já V korpusu byla vyhledávána dvě slova já stojící vedle sebe. Mezi nimi byla mezera. Získán byl pouze jeden výsledek. Proto bylo slovo já vyhledáno ještě jednou, samostatně (zadaný dotaz: já). V korpusu se vyskytovalo 17 367krát. První tři slova v pravém kontextu byla prostřednictvím funkce Konkordance seřazena podle abecedy. Vyhledávány byly ty případy, ve kterých se po čárce nebo po pauze vedle hledaného slova vyskytuje jeho opakování. Nalezeno bylo 163 dalších řádků. (1) […] <mluvčí 1> jo , je to matěj ! k holkám je , jako . <mluvčí 2> já , já ho mam hrozně rád . <mluvčí 1> jo , jako já taky […]
b) jájá Stejně jako tomu bylo u slov no, ano, jo a ne, bylo slovo já zadáno do korpusu vícekrát po sobě, ovšem bez mezery. Na dotaz jájá korpusový manažer nenalezl žádné výskyty. Vyhledávána byla ještě kombinace jájájá. Ani v tomto případě se dotaz v korpusu nevyskytoval. c) ty Jako Nový dotaz bylo zadáno slovo ty. Zobrazeno bylo 9 792 výskytů. Ty byly seřazeny abecedně podle pravého kontextu. Zůstalo 143 případů, ve kterých došlo k opakování. Pouze u 31 výsledků se jednalo o osobní zájmeno (2. os., nom. sg.), ve
53
zbylých 112 případech šlo o zájmeno ukazovací (akuz. pl.). Osobní zájmeno se opakovalo vždy nejvíce dvakrát. (1) […] <mluvčí 1> ale nech ho , ty , ty ho fakt tak srážíš , von si myslí , že je fakt nejhloupější , ale dyť von neni hloupej […]
Ukazovací zájmeno ty se opakovalo až čtyřikrát po sobě. (2) […] <mluvčí 1> já sem to viděla . ty , ty , ty jak sou natištěný , no a to stojí pět set padesát korun […]
d) on Do korpusového vyhledávače bylo zadáno slovo on. Zobrazilo se 357 řádků. Vyhledané výsledky byly seřazeny podle pravého kontextu abecedně. Řádky byly ručně tříděny, zůstaly pouze ty, ve kterých se vyskytovalo opakování hledaného výrazu. Takových případů bylo 8. (1) […] <mluvčí 1> on , on je fakt extremista , v tomhle . a hlavně fakt furt řiká prostě , ale furt dokola […]
e) von Jako Nový dotaz bylo vyhledáváno slovo von. Toto slovo se v korpusu nacházelo celkem 4 899krát. Pomocí funkce Konkordance > Jednoduché třídění byl seřazen pravý kontext abecedně. Nalezeno bylo 68 řádků, ve kterých se slovo von vyskytovalo opakovaně po sobě. Varianta s protetickým v na začátku slova v korpusu jasně převažovala. (1) […] <mluvčí 1> co ho znám já , no , a já ho moc normálního nepoznal . to je asi škoda , i když von , von , to je dávno , co byl normální […]
f) ona Po zadání dotazu ona do korpusu bylo zobrazeno 263 výskytů. Pravý kontext byl seřazen abecedně podle prvních tří pozic. Po ručním třídění zbyly 3 případy opakování, viz např. následující. (1) […] <mluvčí 1> no , ale včera na tý oldies nebyl nikdo . <mluvčí 2> a vždyť si říkala , že vůbec není ta oldies . <mluvčí 1> je . ona , ona nebyla minulej měsíc a tenhle měsíc už zase byla […]
g) vona Postup byl stejný jako u předchozího vyhledávání. Získáno bylo 2 741 výsledků. Ty byly seřazeny podle pravého kontextu abecedně, ručně byly vyhledávány případy opakování. Opakování se objevilo ve 35 řádcích. Podoba s protetickým v na začátku slova v korpusu opět převažovala. (1) […] <mluvčí 1> ale nejsou spolu , tudíž vona , vona je jako svobodná matka , viď […]
54
h) ono Do vyhledávacího řádku bylo zadáno slovo ono. V korpusu se vyskytovalo 113krát. Výsledky vyhledávání byly tříděny podle pravého kontextu abecedně. Byly nalezeny tři výskyty opakování hledaného slova. (1) […] <mluvčí 1> většina lidí se tam nudí , no . <mluvčí 2> hmm . <mluvčí 1> teda jak se to vezme , nudí , samozřejmě že ne , ono , ono okolí třeba tý Berounky , že jo , Ota Pavel , to je taky pěkný , ale , hmm […]
i) vono Vyhledávaný dotaz byl následující: vono. Korpusový manažer zobrazil 1 448 výsledků, tedy daleko více než u spisovné varianty. Jednotlivé výskyty byly pomocí funkce Jednoduché třídění roztříděny stejně jako v předchozím případě. Získáno bylo 8 případů opakování hledaného výrazu. (1) […] <mluvčí 1> hmm , kruci , eště to nevodevřu . <mluvčí 2> já to můžu zkusit , ale asi tě s tim moc nepomůžu <mluvčí 1> ne , ne , vono , vono je to vodevřený , víš ? […]
j) oni Po zadání výrazu oni do korpusu bylo nalezeno 257 výskytů. Vyhledané výsledky byly seřazeny podle pravého kontextu abecedně. Vyhledávaly se ty výsledky, ve kterých se hledané slovo vyskytovalo nejméně dvakrát po sobě. Takových případů bylo 5. (1) […] <mluvčí 1> ale ona právě , ... <mluvčí 2> ... ta Francie , třeba . <mluvčí 1> ... oni , oni nejezděj právě s cestovkou , oni jezděj ... <mluvčí 2> sami , jo ? […]
k) voni Vyhledávaný dotaz voni byl nalezen 2 412krát. Varianta s protetickým v v korpusu převažuje. Výsledky byly seřazeny abecedně podle pravého kontextu. Získaných řádků, ve kterých se objevuje hledané slovo dvakrát za sebou, bylo 31. (1) […] <mluvčí 1> tak já sem mu koupila ty kšandy , měla sem tu košili a voni , voni potom řikali , že to , že by mu koupili tu webkamerku ňákou […]
l) ony Vyhledávaný dotaz ony se v korpusu zobrazil pouze dvakrát. Ani v jednom případě se nejednalo o opakování. m) vony Postup byl stejný jako u předchozího slova (zadaný dotaz: vony). Vyhledáno bylo šest výskytů. Ani v jednom případě se nejednalo o opakování.
55
n) ona Z předcházejícího vyhledávání zájmena 3. os., čísla jednotného, rodu ženského, víme, že opakování slova ona, zájmena 3. os., čísla množného, rodu středního, se v korpusu nenacházelo. o) vona Tento dotaz nebylo nutné vyhledávat, protože byl již jednou vyhledáván. Jednalo se o však o zájmeno 3. osoby, čísla jednotného, rodu ženského. Proto bylo u předchozího vyhledávání nutné vytřídit ty případy, ve kterých se vyskytovalo číslo množné a rod střední. Vzhledem k tomu, že se žádný tento příklad v předchozím třídění nenacházel, vyplývá z toho, že opakování slova vona se v korpusu vyskytovalo pouze u jednotného čísla ženského rodu. Tabulka 12: Vyhledávaná osobní zájmena vyhledávaný výraz to já ten on + von ta ona + vona (sg.) oni + voni ty ono + vono ony + vony ona + vona (pl.)
počet řádků, ve kterých došlo k opakování výrazu (vždy po interpunkci) 630 164 119 76 47 38 36 31 11 0 0
Dotaz pro vyhledávání opakování lze částečně zobecnit. Zadáním následujícího dotazu do korpusu jde vyhledat libovolné slovo (např. slovo no) s konkrétním počtem opakování (např. tři opakování za sebou). Dotaz: ([word="no"]{3}). Jako word lze zadat libovolné slovo, počet opakování ve složené závorce je možné zvýšit nebo snížit. Tímto způsobem lze vyhledávat pouze opakování, která jsou oddělená mezerou (nikoli interpunkcí). Pro vyhledávání opakování, mezi kterými je přítomna interpunkce, je možné použít např. následující dotaz: no [,.] no. Počet vyhledávaných slov přizpůsobíme počtu opakování, která chceme vyhledat, mezi ně vždy vložíme hranatou závorku s interpunkcí.
56
Závěr Hlavním předmětem zkoumání v této práci byla spontánní, přirozená komunikace, konkrétně se jednalo o nepřipravené neoficiální rozhovory dvou a více mluvčích. Stěžejní pro tuto práci byly syntaktické rysy mluvených projevů, které byly popsány na základě odborné literatury a které byly vyhledávány v korpusu mluvené češtiny ORAL2008 (ten obsahuje elektronicky zpracované přepisy nepřipravených neoficiálních rozhovorů). Cílem práce bylo zjistit, které syntaktické konstrukce lze v korpusu mluvené češtiny vyhledat a dále, pokusit se s využitím tzv. regulárních výrazů vytvořit obecné dotazy pro jejich vyhledávání. Bylo zjištěno, že ne každý z osmi popsaných syntaktických rysů (viz kap. 1.2), které jsou typické pro nepřipravené mluvené projevy, lze v korpusu ORAL2008 vyhledat pomocí obecných dotazů. Některé rysy jsou natolik specifické a nepředvídatelné (např. subjektivní pořádek slov nebo neplná realizace slovních konstrukcí), že je nebylo možné vyhledávat ani zadáváním konkrétních výrazů do korpusu. Lze je zkoumat náhodně, např. v kontextu nějakého slova či slovního spojení. Takový styl práce s korpusem je však velmi zdlouhavý a neefektivní. Každý z osmi syntaktických rysů byl doložen příkladem v korpusu ORAL2008, jako nejvhodnější pro vyhledávání byly vybrány následující konkrétní znaky mluvených projevů: tázací dovětky (viz kap. 5.1), opravy (viz kap. 5.2), typické prvky spjaté s mluveností (viz kap. 5.3) a opakování (viz kap. 5.4). U každého z těchto znaků byly na základě příkladů uvedených v odborné literatuře (viz Seznam použité literatury) vybrány konkrétní výrazy, které byly vyhledávány v korpusu. V kapitole 5.1 bylo vybráno 11 tázacích dovětků – ano?, áno?, jo?, jó?, ne?, né?, no?, nó?, viď?, viďte?, že?. Na základě získaných výsledků z korpusu bylo zjištěno, že mezi tři nejfrekventovanější tázací dovětky patří: jo?, ne? a viď? (celkem 3 931 výskytů). Výskyty u dovětků ano? a viďte? byly zanedbatelné, tázací dovětky nó? a áno? nebyly v korpusu nalezeny ani jednou. V případě dovětků se podařilo dotaz zobecnit. V kapitole 5.2 Opravy bylo vybráno z příkladů uvedených v literatuře následujících devět výrazů, po kterých může následovat oprava: tedy, teda, vlastně, mám na mysli, myslím, myslim, respektive, počkej, neto. Nejfrekventovanějšími z výše uvedených výrazů, po kterých v korpusu následovala oprava, byly: vlastně, teda a myslim. Po spisov-
57
né variantě slova myslím nenásledovala oprava ani jednou (celkový počet výskytů slova myslím byl 35, hovorová podoba myslim byla nalezena 1 020krát). Na základě těchto výsledků je zřejmé, že by se jako příklady z oblasti mluvené češtiny měly objevovat hovorové varianty slov, nikoli spisovné. V rámci této kapitoly byla vyhledávána také nedokončená slova, která s opravami souvisejí – po nedokončeném slovu většinou následuje to slovo, které mělo být původně řečeno. U tohoto typu vyhledávání nebylo možné dotaz zobecnit, je nutné vyhledávat konkrétní výrazy. Z typických vyjadřovacích prvků spjatých s mluveností (kap. 5.3) byly pro vyhledávání vybrány následující výrazy: abych tak řekl, jak říkám, jak řikám, no, no a, no tak, prostě, jaksi, jakoby, jakože, víš co, víš jak. Müllerová uvádí sedm z těchto výrazů, zbylé výrazy (jak řikám, prostě, jaksi, jakoby, jakože) byly dodatečně přidány na základě zkoumání okolního kontextu u ostatních vyhledávání. Bylo zjištěno, že nejfrekventovanějšími výrazy jsou: no (27 311 výskytů), prostě (4 877 výskytů), no a (1 502 výskytů) a no tak (822 výskytů). Spisovná varianta jak říkám byla v korpusu nalezena pouze sedmkrát, hovorová varianta jak řikám čtrnáctkrát (Nejedná se o tak markantní rozdíl, jak tomu bylo u dvojice myslím/myslim, viz výše.). Slovní spojení abych tak řekl, které uvádí Müllerová, nebylo v korpusu doloženo. Často frekventované výrazy jako prostě a jakoby naopak mezi typickými příklady chybí. V této kapitole byl u každého vyhledávaného výrazu pro zajímavost zkoumán pravý i levý kontext, zjišťovalo se, jaká slova stála nejčastěji v těsném okolí hledaného výrazu. Pro prvky spjaté s mluveností nebylo možné vytvořit obecný dotaz, je nutné vyhledávat konkrétní výrazy. V kapitole 5.4 Opakování byla vyhledávána opakování následujících výrazů: ano, áno, jo, jó, ne, né, no, nó, takže, počkej, hele, jako, nevím, nevim, jsem, sem (=jsem), ten, ta, to, já, ty, on, von, ona, vona, ono, vono, oni, voni, ony, vony, ti, nějak, nějaký, nějakej, nějaké, ňáké, nějaká, ňáká, nějací, ňácí. Varianty slov s dlouhými vokály nebyly vybrány z příkladů uvedených v odborné literatuře, ale na základě okolního kontextu (áno, jó, né, nó). Takové výrazy se v korpusu vyskytovaly buď v zanedbatelném množství, nebo nebyly vůbec doloženy. Vyhledávala se ta opakování, která stála bezprostředně za sebou (mezi slovy mohla být mezera nebo interpunkce, vyhledáváno bylo i opakování slov bez mezer). Z výsledků vyplynulo, že se slova častěji opakovala po čárce (nebylo tomu tak vždy – např. slova jo a ne se nejčastěji opakovala bez mezer mezi jednotlivými slovy). Na základě vyhledávání osobních zájmen bylo zjištěno, že
58
varianty hovorové (s protetickým v) několikanásobně převládají nad variantami spisovnými (např. ona – 263 výskytů, vona – 2 741 výskytů). Dotaz pro vyhledávání opakování se podařilo částečně zobecnit. Poznatky z této bakalářské práce můžou sloužit všem těm, kteří se zabývají syntaxí mluvených projevů nebo vyhledáváním v korpusech mluvené češtiny všeobecně. Zobecněné dotazy, které se povedlo sestavit pro vyhledávání tázacích dovětků a opakování slov, mohou usnadnit práci při vyhledávání dotazů podobného typu v korpusech mluvené češtiny.
59
Seznam použité literatury BALHAR, J. Skladba lašských nářečí. Praha: Academia, 1974. ČECHOVÁ, M., KRČMOVÁ, M., MINÁŘOVÁ, E. Současná stylistika. Praha: Lidové noviny, 2008. ČERMÁK, F. Jak využívat český národní korpus. Praha: Lidové noviny, 2005. ČERMÁK, F. a kol. Studie z korpusové lingvistiky. Praha: Karolinum, 2000. ČERMÁK, F., KOCEK, J. Co je korpus? [online], [cit. 17. 12. 2011], Český národní korpus. Dostupné z: . Český národní korpus - ORAL2008. Ústav Českého národního korpusu FF UK, Praha 2008. Dostupný z: . DANEŠ, F., GREPL, M., HLAVSA, Z. Mluvnice češtiny 3 – Skladba. Praha: Academia, 1987. HAJIČ, J. Popis morfologických značek – poziční systém. [online], [cit. 22. 5. 2012], Český národní korpus. Dostupné z: . HAUSENBLAS, K. O studiu syntaxe běžně mluvených projevů. In Kolektiv autorů. Otázky slovanské syntaxe I. Brno: Universita J. E. Purkyně, 1962. CHLOUPEK, J. Aspekty dialektu. Brno: Univerzita J.E. Purkyně, 1971. KARLÍK, P., NEKULA, M., a PLESKALOVÁ, J. (edd.). Encyklopedický slovník češtiny. Praha: Nakladatelství Lidové noviny, 2002. KOPŘIVOVÁ, M., KOCEK, J. Manuál korpusového manažeru Bonito [online], Český národní korpus. Dostupné z: < http://korpus.cz/bonito/index.php>. KRČMOVÁ, M. Běžně mluvený jazyk v Brně. Brno: Univerzita J. E. Purkyně, 1981. KRČMOVÁ, M. Fonetika a fonologie: zvuková stavba současné češtiny. Brno: Masarykova univerzita, 1996. KUČERA, K. a kol. Český národní korpus: úvod a příručka uživatele. Praha: Filozofická fakulta UK – Ústav Českého národního korpusu, 2000. MICHÁLKOVÁ, V. Studie o východomoravské nářeční větě. Praha: Academia, 1971.
60
MÜLLEROVÁ, O. Mluvený text a jeho syntaktická výstavba. Praha: Academia, 1994. MÜLLEROVÁ, O. O syntaxi nepřipravených souvislých mluvených projevů (přídatné vazby a konstrukce). Slovo a slovesnost 27, 1966. s. 118 – 126. Krátké zprávy [online], [cit. 2. 3. 2012], Český národní korpus. Dostupné z: . RYCHLÝ, P. Korpusy textů na FI MU. [online] Zpravodaj ÚVT MU, 1997, roč. VIII, č. 2, s. 9-12. [cit. 20. 12. 2011] Dostupný z: . ŠÍPKOVÁ, M. Stavba věty v mluvených projevech: Syntax hanáckých nářečí. Jinočany: H&H, 1993. ŠULC, M. Korpusová lingvistika: První vstup. Praha: Karolinum, 1999. WACLAWIČOVÁ, M. Korpus mluvené češtiny ORAL2008. [online], [cit. 27. 12. 2011], Český národní korpus. Dostupné z: . WACLAWIČOVÁ, M. Stránka sběru dat pro mluvené korpusy. [online], [cit. 15. 1. 2012]. Dostupné z: < http://ucnk.ff.cuni.cz/oral/>. WACLAWIČOVÁ, M. Zásady přepisu pro korpus ORAL2008. [online], [cit. 2. 3. 2012], Český národní korpus. Dostupné z: < http://korpus.cz/ORAL2008pravidla.php>.
Použitý software RYCHLÝ, P. Korpusový manažer Bonito.
61