Specializovaný korpus BANÁT a jeho využití Klára Dvořáková, Zuzana Komrsková a Karolína Vyskočilová
[email protected] [email protected] [email protected] Korpusová lingvistika Praha 2016, 17. září 2016
Obsah příspěvku specializovaný korpus BANÁT uskutečněné studie případová studie - příklonky
o příklonkách data problémy při anotaci a příklady výsledky
Specializovaný korpus BANÁT
sběr 2011, 2014, 2015, 2016 folkloristická pravidla přepisu (ORAL), Transciber dnes přes 65 hodin materiálu (+ starší) 30 mluvčích BANÁT2016 320 644 pozic
(cca 1/5 mluvčí z ČR)
přepis a zvuková stopa oddělené promluvy banátských a českých mluvčí Vnitřní grant (2015-2016): Rozšíření a anotace korpusu banátské češtiny BANÁT
Studie
srovnání se stavem
v češtině na našem území dokumentovaným v předchozím výzkumu
např.
genitiv záporový a partitivní přívlastek shodný až za NP „neurčitý člen“ - jeden před NP zesílený zápor nic a nikerak příklonky na 1. pozici
Případová studie - příklonky starší studie – předsouvání příklonek na 1. pozici (Haiderová 2007: 90, Salzmann 1984:105, Viková 1994: 34) často zmiňované téma i ve srovnání s mluvenou češtinou
první výzkum založený pouze na oanotovaných datech z BANÁTU z r. 2012 a ORALU 2006 a 2008 druhý ruční analýza na nových datech (BANÁT2014, ORAL2013)
O příklonkách 1 většinou jednoslabičné výrazy nenesou přízvuk kladou se obvykle za první přízvučný výraz výpovědi, tj. na druhou pozici stále × nestálé stálé:
spojka -li tvary slovesa být: jsem, je, bys, by… zvratná zájmena se, si tvary zájmen: mě, mi, tě, ti, ho, mu, jí… kondicionálové byl
O příklonkách 2
příklonka může následovat za:
slovem
frází
Cestující, který nemá platný cestovní doklad, se vystavuje nebezpečí, že bude pokutován.
podřadicí spojkou či některou souřadicí spojkou
Kde Sokrates skutečně zemřel, se zřejmě nikdy nedovíme.
větným člen rozvitým vedlejší větou přívlastkovou
Proud teplého vzduchu na okraji balkánské tlakové výše se dostává do střední Evropy.
větou
Eva se dívá na televizi.
Jana řekla, že se brzy vrátí. Už se Pavel rozhodl, nebo si to ještě rozmyslí?
větným členem a vsuvce po něm následující
Peněz – to o něm bylo všeobecně známo – si nevážil.
Data
korpusy
BANAT2016 (320 644 pozic) subkorpus jihozápadočeské a středočeské oblasti z ORAL2013 (1 031 197 pozic)
tvary slov „si“, „ti“ a „ho“ 300 náhodných vzorků
si ti ho
BANÁT2016 ipm 3 376 10 528 587 1 830 902 2 813
ORAL2013 ipm 8 826 8 558 1 634 1 584 1 720 1 667
Problémy
pauzy
A: kořala .. ta ti .. mrtví tělo .. B: mrtví? A: no to jako eee .. ti uspí
×
nerozluštitelný kontext
A: a ty už máš chuť eště na ňáký pivo ? B: jo . --- si klidně .. jestli teda něco máme .
více příklonek za sebou
von ti neudělá nic ... ti neudělá nic
sem ti to řikala bych ti to dala
homonymie
Příklady I. tak Olina tady vlasně to je štyry roky . co tady s tou . ségrou bydlely . si myslim . tak ňák .. nebo možná eště míň . (1) II. tak si dej čokoládku (2) III. řikala sem hele . eee . vejde se ti tam hodně věcí (2) IV. na těch zámkách vidíš jako .. ti ukazujou . jak jak to tady vypadalo (1) V. A: dědku zhasni to .. B: mmm mmm mmm A: sem ti to řikala ... ať to ne .. nepoustíš (1) VI. právě on neodjel do Ameriky já si myslím že třeba ňák zmoudří . (2)
Výsledky si vyřazeno 1. pozice jiná pozice p-value
BANÁT 1 20 279
ORAL 2 19 279 1 ti
vyřazeno 1. pozice jiná pozice p-value
BANÁT 6 8 286
ORAL 10 12 278
0.3722
ho vyřazeno 1. pozice pozice p-value
BANÁT 12 13 275
ORAL 1 6 293
0.1041
Diskuse mezi daty z ORALu a BANÁTU není rozdíl frekvence jevu není tak velká, jak by se mohlo na první pohled zdát
do budoucna zpracovat větší vzorek zahrnout i psaný jazyk, zaměřit se zejména na psanou mluvenou češtinu (beletrie, emaily a chat apod.)
Děkujeme za pozornost.
[email protected] [email protected] [email protected] Tento výstup vznikl v rámci projektu „Mezilidská komunikace v interdisciplinární perspektivě“ podprojektu „Rozšíření a anotace korpusu banátské češtiny BANÁT“ řešeného na Filozofické fakultě Univerzity Karlovy v Praze z prostředků Specifického vysokoškolského výzkumu na rok 2015.
Bibliografie
Benešová, L. – Křen, M. – Waclawičová, M.: ORAL2013: reprezentativní korpus neformální mluvené češtiny. Ústav Českého národního korpusu FF UK, Praha 2013. Dostupný z WWW: http://www.korpus.cz Vyskočilová, K: BANÁT2016: korpus mluvené banátské češtiny. Praha 2016. Dostupný z WWW: http://www.korpus.cz Haiderová, Karolina, 2007. Jazyk české menšiny v rumunském Banátu: obce Gerník a Svatá Helena. Olomouc. Diplomová práce, FF UPOL. Hoffmannová, J. - Richterová, O.: Si představ, by mě zajímalo, ti to ukážu: Jednoslabičné začátky syntaktických segmentů v mluvené češtině. In Časopis pro moderní filologii 97, 2015, č. 1, s. 9-20. Salzmann, Zdeněk, 1984. Some observations on the Czech spoken by the villagers of Ravensca in the Southern Romanin Banat. Melbourne Slavonic Studies. roč. 18, s. 65–118. Uhlířová, Ludmila: Knížka o slovosledu. Praha: Academia, 1987. Viková, Vilma, 1994. Bígerská čeština: nástin jazykové monografie české vesnice v Rumunsku. Praha. Diplomová práce, FF UK. Vyskočilová, Karolína: Syntaktická analýza projevů českých mluvčích v rumunském Banátu. Praha, bakalářská práce na FF UK, 2012. Vyskočilová, Karolína: Tvorba specializovaného korpusu banátské češtiny a jazyková analýza vybraných jevů. Praha, diplomová práce, FF UK, 2014. Vyskočilová, Karolína: Czech language minority in the South Western Romanian Banat. In: O. Garcia Otheguy (ed), Multilingualism and Minorities in the Czech Sociolinguistic Space. International Journal of the Sociology of Language. Berlin, Boston: De Gruyter Mouton, 2016, s. 145–167.