Elżbieta Kaczmarska
Institute of Western and Southern Slavic Studies University of Warsaw
Corpus-based Analysis of Czech Units Expressing Mental States and Their Polish Equivalents
Motivation Czech – Polish language contact – difficulties with understanding some type of words especially psych verbs and nouns denominating emotions and feeling, e.g. být líto mít rád mrzet postrádat toužit
2014-11-21
PALC 2014 - Elżbieta Kaczmarska
3
být líto, mít rád, mrzet, postrádat, toužit
What makes their translation into Polish (so) difficult?
-
their polysemy, the absence of such a concept in Polish (Kaczmarska & Rosen: in print)
Do they really represent polysemous verbs? 2014-11-21
PALC 2014 - Elżbieta Kaczmarska
4
A Czech-Polish dictionary – Siatkowski & Basaj 2002
mít rád – lubić, kochać - mrzet – gniewać, złościć, mierzić, martwić, żałować, być przykro, nie mieć ochoty - toužit – tęsknić, pragnąć, marzyć. Consequently we are not able to translate them into Polish properly. Context (for an avowal) – Mám Tě rád... (???) -
2014-11-21
PALC 2014 - Elżbieta Kaczmarska
5
mít rád
For Polish-speaking person – at least two quite different meanings
kochać (to love)
lubić (to like)
2014-11-21
PALC 2014 - Elżbieta Kaczmarska
6
The goal
attempt to find a suitable equivalent for a given unit (psych verbs)
consequently → attempt to build an algorithm for selecting equivalents for verbs
2014-11-21
PALC 2014 - Elżbieta Kaczmarska
7
What we will do… a few steps At each stage, we find the best equivalent – depending on the verb Czech – Polish pairs of equivalents extracted from the parallel corpus InterCorp Valency analysis - how many arguments the given verb bounds - how the arguments are bound (grammatical case, prepositions, infinitive, relative clause) - what they are (if it is e.g. a noun – what it is like – a real one or an abstract one, naming a human being) Case Grammar - if the candidates for equivalents (in the aligned segments) represent the same categories of semantic roles (Experiencer and what else?) Pattern Grammar - ”If a word has several senses, and is used in several patterns, each pattern will occur more frequently with one of the senses than the others, such that the patterning of an individual example will indicate the most likely sense of the word in that example.”(Hunston & Francis 2000: 20) Cognitive Grammar – view meaning in terms of conceptualization
2014-11-21
PALC 2014 - Elżbieta Kaczmarska
8
VERB
Valence analysis
equivalent
Case Grammar
Pattern Grammar
equivalent
2014-11-21
Cognitive Grammar
equivalent
PALC 2014 - Elżbieta Kaczmarska
equivalent
9
Step one – Valence analysis
Assumption - in cases concerning some meanings the equivalent could be established on the basis of the convergence of the valence requirements (Levin 1993)
2014-11-21
PALC 2014 - Elżbieta Kaczmarska
10
toužit – study case (a pilot survey – Kaczmarska & Rosen 2013)
Automatic extraction of pairs of equivalents from the parallel corpus
InterCorp – “dictionary”
2014-11-21
PALC 2014 - Elżbieta Kaczmarska
11
toužit 673 toužit
equivalent
304 toužit
pragnąć
107 toužit
chcieć
82 toužit
tęsknić
70 toužit
marzyć
40 toužit
pożądać
24 toužit
ochota
9 toužit
zapragnąć
8 toužit
pragnienie
8 toužit
tęsknota
8 toužit
zależeć
7 toužit
spragniony
6 toužit
życzyć 2014-11-21
PALC 2014 - Elżbieta Kaczmarska
12
valence analysis – toužit Number of arguments The way how the arguments are bound (grammatical case, prepositions, infinitive, relative clause) Type of arguments (if it is e.g. a noun – what it is like – a real one or an abstract one, naming a human being, a sentence, infinitive…)
2014-11-21
PALC 2014 - Elżbieta Kaczmarska
13
toužit
toužit po Oabstr toužit po Ohum toužit po / do OR toužit + inf → pragnąć + inf toužit + S (aby… / po tom, aby…)
2014-11-21
PALC 2014 - Elżbieta Kaczmarska
14
toužit + inf toužit inf
→
pragnąć + inf
equivalent być pragnieniem inf chcieć inf chętnie + S marzyć o Oabstr mieć marzenie inf mieć ochotę inf pragnąć inf pragnąć + S pragnąć Oabstr tęsknić za (+S) zachciewać się Oabstr other
2014-11-21
1 20 1 4 1 1 44 1 3 1 1 2 80
PALC 2014 - Elżbieta Kaczmarska
15
toužit po Ohum
toužit po OR
toužit do OR
equivalent marzyć o Ohum mieć ochotę + inf pożądać Ohum pożądany Ohum pragnąć X pragnąć + inf pragnąć Oabstr pragnąć Ohum tęsknić X tęsknić do + S tęsknić do Oabstr tęsknić do Ohum tęsknić za Ohum zapragnąć Oabstr zatęsknić za Ohum other
equivalent chcieć + inf marzyć + S marzyć o OR obiekt pożądania pragnąć + inf pragnąć OR tęsknić za OR tęsknić do OR
1 1 5 1 1 3 2 14 1
2 1 5 1 1 1 1 12 1 1 1 5 2 1 1 1 37
toužit po + Object
toužit po Oabstr
2014-11-21
equivalent chcieć inf dążyć do Oabstr marzyć o Oabstr marzyć o Ohum myśleć o Oabstr pożądać Oabstr pragnąć + S pragnąć inf pragnąć Oabstr pragnienie Oabstr tęsknić do Oabstr tęsknić za Oabstr tęskno za Oabstr upragniony Oabstr zapragnąć inf żądni Oabstr other
PALC 2014 - Elżbieta Kaczmarska
1 2 20 1 1 5 1 4 29 1 11 7 1 1 1 1 7 94 16
Necessity for a deeper analysis of objects toužit po velké lásce / exotické cestě Śnić o wielkiej miłości / egzotycznej podróży Marzyć o wielkiej miłości / egzotycznej podróży Tęsknić za wielką miłością / egzotyczną podróżą (???) Pragnąć wielkiej miłości / egzotycznej podróży (?)
2014-11-21
PALC 2014 - Elżbieta Kaczmarska
17
Step two – Case Grammar toužit Subject of toužit is always Experiencer Object of toužit is a kind of Source / Stimulus
2014-11-21
PALC 2014 - Elżbieta Kaczmarska
18
Stál jsem i nyní stále kus od ní, kdežto ona naopak toužila po rychlém příchodu teplých doteků, které by přikryly tělo vystavené chladnosti pohledu. I teraz stałem nieco z dala od niej, podczas gdy ona, przeciwnie niż ja, tęskniła za szybkim dotknięciem ciepłych ramion, które osłoniły by jej ciało wystawione na chłód spojrzeń. Toužil po polibku, závěrečném, posledním polibku, do kterého by zachytil jako do čeřenu její tvář, která brzy zmizí a z níž mu zůstane jen vzpomínka. Pragnął pocałunku, ostatniego pocałunku, kończącego pocałunku, który pozwolił by mu pochwycić niczym w sieć tę twarz, co wkrótce zniknie i pozostawi po sobie jedynie wspomnienie. Mladý muž touží po vlastním divadle. Młody mężczyzna marzył o własnym teatrze.
2014-11-21
PALC 2014 - Elżbieta Kaczmarska
19
In case of other verbs we can identify
roles as: Agent, Beneficiary, Location, Time, Instrument, Substance, Object
(itself)…
The analysis of the surface realization
of the cases should be conducted. 2014-11-21
PALC 2014 - Elżbieta Kaczmarska
20
Step three – Patterns Grammar
If a word has several senses, and is used in several patterns, each pattern will occur more frequently with one of the senses than the others, such that the patterning of an individual example will indicate the most likely sense of the word in that example. (Hunston & Francis 2000: 20)
2014-11-21
PALC 2014 - Elżbieta Kaczmarska
21
A pattern can be identified if a combination of words occurs relatively frequently, if it is dependent on a particular word choice, and if there is a clear meaning associated with it. (Hunston & Francis 2000: 37)
We will check if there is a repeatability of a given object in the corpus occurrences. 2014-11-21
PALC 2014 - Elżbieta Kaczmarska
22
být líto Jak mi ho bylo líto! Jakże mi go było żal!
Pak mi je líto. Wobec tego, przykro mi!
Je mi ho samozřejmě líto.
Potom nám to bylo oběma líto.
Jest mi go oczywiście żal…
Potem nam obu było przykro.
Přišlo mi jí prostě líto.
…nabídne mi sisinku a já si vezmu, protože by mu bylo líto, kdybych si nevzala…
Po prostu zrobiło mi się jej żal.
...zaprasza mnie na cuksa i ja biorę, bo było by mu przykro, gdybym nie wzięła…
být líto + NP DAT + NPGEN = żal
být líto + NP DAT + to / Ø = (być) przykro
2014-11-21
PALC 2014 - Elżbieta Kaczmarska
23
The possibility of using a universal tool Word Skeches
We will check if there is a repeatability of a given object in the corpus occurrences. A universal tool (in a way) for pattern grammar, case grammar, valency Word Sketches – an automatic method InterCorp – Czech-Polish part
2014-11-21
PALC 2014 - Elżbieta Kaczmarska
24
INFINITIV toužit inf-X post_inf mít stát poznat vidět vrátit hrát získat dostat vyhrát žít jít najít udělat spatřit uspět dělat napravit zůstat pracovat podívat
17 405 926 864 382 346 333 333 332 311 285 177 176 152 143 132 124 105 101 99 96 92
pragnąć inf * marzyć inf * tęsknić inf post_inf 6 800 podziękować 805 podkreślić 598 pogratulować 379 wyrazić 391 zwrócić 319 przypomnieć 165 powiedzieć 386 zauważyć 97 rozpocząć 73 poruszyć 58 powtórzyć 51 skorzystać 70 powitać 43 dodać 70 zaznaczyć 40 przyłączyć 33 wezwać 39 zapytać 43 poinformować 46 pochwalić 2014-11-21 26PALC 2014 - Elżbieta Kaczmarska 25
toužit po post_po dítě láska návrat úspěch vítězství změna život medaile pomsta klid vztah moc postup kariéra titul rodina svoboda výhra bod dobrodružství odveta domov
pragnąć
marzyć o
tęsknić za
tęsknić do
23 752 has_gen_obj 809 verb_o_noun 296 verb_za_noun 94 697 599 555 493 457 455 361 316 287 282 271 267 266 263 263 246 218 189 174 171 156 155
co to Europa zachęcić strona coś powód region śmierć demokracja debata grupa zmiana parlament pokój rozwój okazja wolność rezolucja prezydencja współpraca kontynuacja
76 to 70 52 Europa 14 34 powrót 10 26 demokracja 5 16 wolność 4 15 utopia 3 14 zemsta 3 14 domek 3 13 kariera 3 12 miłość 3 12 nic 3 12 śmierć 3 12 rozmowa 3 11 coś 3 10 majestat 2 10 posada 2 9 teatr 2 8 ucieczka 2 7 niepodległość 2 6 hotel 2 6 rewolucja 2 5 członkostwo 2 2014-11-21
dom to junior mąż żona powrót ojciec coś człowiek czas praca
6 5 2 2 2 2 2 2 2 2 2
verb_do_noun
59
spokój dom świat słońce ciało rzecz
3 3 3 2 2 2
PALC 2014 - Elżbieta Kaczmarska
26
Kolokator – NKJP (PELCRA) experimental research Word Sketches (InterCorp) pragnąć has_gen_obj 809 co to Europa
76 52 34
zachęcić
26
strona coś powód region śmierć
16 15 14 14 13
demokracja
12
debata grupa zmiana
12 12 12
parlament
11
pokój rozwój okazja wolność
10 10 9 8
PELCRA (NKJP) pragnąć + Gen on 1460 człowiek 163 ty 143 życie 110 coś 107 bóg 63 kobieta 60 dziecko 57 świat 50 nic 47 miłość 43 śmierć 42 zmiana 42 dobro 37 mężczyzna 35 ojciec 34 pokój 31 kontakt 30 powrót 29 2014-11-21
Word Sketches (CNK) toužit po post_po 23 752 dítě 697 láska 599 návrat 555 úspěch 493 vítězství 457 změna 455 život 361 medaile 316 pomsta klid vztah moc postup kariéra titul rodina svoboda výhra bod
PALC 2014 - Elżbieta Kaczmarska
287 282 271 267 266 263 263 246 218 189 174
27
toužit hodně moc tak už tolik vždycky stále dlouho vždy také ani nikdy zoufale velmi teď marně strašně nijak jen opravdu přesto zase prý vůbec
1099 1085 783 778 773 751 543 501 479 468 444 433 401 399 394 374 335 318 301 298 267 252 245 235
pragnąć bardzo gorąco jedynie jednocześnie rozpaczliwie rzeczywiście szczerze mocno wyraźnie dużo obecnie ponownie oczywiście wyłącznie dobrze
136 40 19 16 15 13 12 8 8 7 6 5 5 5 5
tęsknić bardzo ogromnie niesamowicie okropnie straszliwie strasznie szczególnie
2014-11-21
34 3 2 2 2 2 2
marzyć jedynie często bardzo próżno długo dobrze niejasno naturalnie nieustannie stale trudno głośno pewno dużo późno daleko
PALC 2014 - Elżbieta Kaczmarska
6 5 5 4 4 3 2 2 2 2 2 2 2 2 2 2
28
Step four – Cognitive grammar
the meaning in terms of conceptualization
→ mít rád
kochać, lubić, przepadać (to love, to like, to be found) – (Siatkowski and Basaj 2002)
lubić, kochać, podobać się, uwielbiać, polubić, pokochać, w naszym guście – InterCorp 2014-11-21 PALC 2014 - Elżbieta Kaczmarska
29
(cs) Mám tě strašně rád, řekl. (Kundera-Valcik_na_rozl)
(pl) Strasznie cię kocham – rzekł. (Kundera-Valcik_na_rozl)
(cs) Kdybys mě měla ráda, nemohla by ses opičit s tím pitomým jménem. (Grusa-Dotaznik)
(pl) Gdybyś mnie naprawdę lubiła, nie wygłupiała byś się z tym kretyńskim imieniem. (Grusa-Dotaznik)
(cs) Máš-li mne jen trošku rád, shoď mne z třetího patra, dej mně tu poslední outěchu. (Hasek-OsudyDobrehoVvSV)
(pl) Jeśli masz dla mnie choć troszkę przyjaźni, zrzuć mnie z trzeciego piętra, udziel mi tej ostatniej pociechy. (Hasek-OsudyDobrehoVvSV) 2014-11-21
PALC 2014 - Elżbieta Kaczmarska
30
mít rád mít rád milovat
kochać (to love)
lubić (to like)
2014-11-21
PALC 2014 - Elżbieta Kaczmarska
31
mít rád in InterCorp (2799) lubić (przyjaźń, sympatia, polubić) TO LIKE (66%) kochać (miłość, zakochać się) TO LOVE (18%) inne (cieszyć się, woleć) OTHER (16%)
2014-11-21
PALC 2014 - Elżbieta Kaczmarska
32
Cognitive methods – survey in Liberec
mít rád / milovat Attemps to discover the meaning of mít rád on the basis of the opposition with milovat. What are the objects we combine with the verbs? If there are any differences between the two verbs? 30 respondents (19 – 57 year old) 2014-11-21
PALC 2014 - Elżbieta Kaczmarska
33
milovat
mít rád person, food, drinks, music, activity, beer, nature, parents, girl friend, life, pets
arguments
person, activity, food, pets…
definition
the highest level of love, "mít rád" but intensely, to be in a deep relationship, to feel 'love’, something more than "mít rád", strong positive emotions 2014-11-21
to like someone or something, positive emotions
PALC 2014 - Elżbieta Kaczmarska
34
but also the Czechs are not quite sure
Ovšem mít rád – to člověk může mít knihu, kamaráda, psa... v tom není nic erotického.
http://diskuse.doktorka.cz/mit-rad-zamilovat-se-milovat/archiv/0/
Vidím to přesně jako Arnika. Pro mě byly hranice teda vždy jasný. Zamilovaná jsem byla ze začátku do současného přítele. Už jsme spolu několik let, ale pořád ho miluju. Ráda mám třeba ex, se kterým jsme se rozešli už před 5 lety, ale v dobrém. Takže asi takhle – zamilovanost zezačátku, miluju někoho potom, co prvotní zamilovanost přešla. A ráda mám kamarády, blízké atd
http://diskuse.doktorka.cz/mit-rad-zamilovat-se-milovat/
Ono mít ráda můžu i rajskou nebo svoje hady, ale milovat... je prostě něco jiného
http://www.poradte.cz/spolecnost/21684-milovat-nebo-mit-rad.html
Miluji tě – má jistý sexuální náboj. Milenci po setkání odhazují oblečení, cesta vede směrem k ložnici. Je v tom touha, láska, zamilovanost a chtíč. Pro dnešek, zítřek, rok, snad dva. Méně citu a porozumění. Mám tě rád – je v tom všechno: cit, porozumění, láska, podpora. Že se jeden na druhého může spolehnout, budou spolu, až jim bude ouvej. Nebudou nikdy sami. Je to jako v němém filmu, kdy není třeba slov, protože hovoří oči, činy. V nich se zobrazuje láska, něha, starost. Mám tě rád už není jen o slovech. Je to o životě
http://janajerabkova.blog.idnes.cz/c/194377/Milovat-nebo-mit-rad.html 2014-11-21
PALC 2014 - Elżbieta Kaczmarska
35
“Is it really possible to tell someone else what one feels?” Leo Tolstoy, Anna Karenina
2014-11-21
PALC 2014 - Elżbieta Kaczmarska
36
Conclusions and perspectives Corpora make possible the definition of the clusters of equivalents (parallel corpus) Confrontative research – difficulties with often incompatible tools Word Sketches – promising tool – prepared for the Polish part of InterCorp (not for Czech part); not available for external users Word Sketches available for SYN (Czech National Corpus). For the Polish language, a comparable corpus is NKJP (National Corpus of Polish), but we cannot use Word Sketches for NKJP. Czech and Polish corpora have different statistical functions. 2014-11-21
PALC 2014 - Elżbieta Kaczmarska
37
Other methods: Disappointing results of the research based on Case Grammar A deeper cognitive analysis needed Problem of ”nonexistence” of a concept in the other language – an arbitrary decision of translator Experimental trials of stochastic modeling of the choice of an equivalent on the basis of the context (Kaczmarska, Rosen, Hana 2014)
WSD – Word Sense Disambiguation – Tian et al. 2014; Młodzki at al. 2012; Tian et al. 2010; Han et al. 2013; Kędzia et al. 2014). Algorithms using different linguistic ideas (Han et al. 2013) 2014-11-21
PALC 2014 - Elżbieta Kaczmarska
38
2014-11-21
PALC 2014 - Elżbieta Kaczmarska
39
WSD – Word Sense Disambiguation – Tian et al. 2014; Młodzki at al. 2012; Tian et al. 2010; Han et al. 2013; Kędzia et al. 2014). Algorithms using different linguistic ideas (Han et al. 2013
o
Han, A. L., Lu, Y., Wong, D.F., Chao, L.S., He, L., Junwen, X. (2013). Quality Estimation for Machine Translation Using the Joint Method of Evaluation Criteria and Statistical Modeling. W: Proceedings of the Eighth Workshop on Statistical Machine Translation, 365-372. Association for Computational Linguistics.
o
Kędzia, P., Piasecki, M., Kocoń, J., Indyka-Piasecka, A. (2014). Distributionally Extended NetworkBased Word Sense Disambiguation in Semantic Clustering of Polish Texts. W: IERI Procedia (International Conference on Future Information Engineering) 10, 38-44. DOI: 10.1016/j.jeri.2014.09.073
o
Młodzki, R., Kopeć, M. Przepiórkowski, A. (2012). Word Sense Disambiguation in the National Corpus Of Polish. Philological Studies (Prace Filologiczne) LXIII: 155-166.
o
Tian, L., Wong, D. F., Chao, L. S., Oliveira, F. (2014). A Relationship: Word Alignment, Phrase Table, and Translation Quality. The Scientific World Journal. Hindawi Publishing Corporation. Dostęp z: http://dx.doi.org/10.1155/2014/438106
o
Tian, L., Wong, F., Chao, S. (2010). An Improvement of Translation Quality with Adding KeyWords in Parallel Corpus. W: Machine Learning and Cybernetics (ICMLC) Vol. 3, 1273 – 1278. DOI: 10.1109/ICMLC.2010.5580888
2014-11-21
PALC 2014 - Elżbieta Kaczmarska
40