Teorie sítí v lingvistice Radek Čech www.cechradek.cz
Redukcionismus vs. komplexita
„Viděli jste někdy dítě rozebírat svou oblíbenou hračku? A viděli jste pak toho mrňouse, jak brečí, protože zjistil, že součástky ne a ne složit zase dohromady? Tak tady máte tajemství, které se nikdy neobjeví na prvních stránkách novin: rozebrali jsme svět na části a nemáme představu, jak ho zase složit zpět...“ (Barabási 2005) „Redukcionismus nám říká, že pokud chceme přírodu pochopit, musíme nejdříve rozšifrovat, z čeho se skládá. Předpokládá se, že jakmile pochopíme části, bude jednoduché pochopit celek.“ (Barabási 2005)
Redukcionismus vs. komplexita
„Ukázalo se, že skládání dílů dohromady je úkol mnohem
těžší, než vědci předpokládali. (…) Poučili jsme se, že příroda není chytře vymyšlená skládačka, která se dá složit jen jedním způsobem. V komplexních systémech se součástky dají sestavit tolika různými způsoby, že by nám trvalo miliardy let, než bychom je všechny vyzkoušeli. A přece příroda skládá dílky s lehkostí a přesností, zdokonalovanou miliony let. Využívá při tom všeobsáhlé zákony samoorganizace, jejichž původ je pro nás stále do značné míry tajemstvím.“ (Barabási 2005)
Sítě
jednou z možností, jak zachytit a analyzovat vlastnosti jevů a vztahů mezi nimi, je analýza sítí síť → graf sestávající z bodů reprezentujících entity a hran reprezentujících vztahy mezi entitami
Syntaktická síť
Teorie komplexních sítí
konec 90. let 20. stol. → rozvoj teorie grafů, zejména tzv. teorie komplexních sítí (TKS)
odhaluje společné vlastnosti systémů nejrůznějšího původu → internet, potravní řetězce, sexuální vztahy, neurální sítě, vědecké citace, ekonomické vztahy... jazyk tyto společné statistické vlastnosti jsou výsledkem
struktury systémů
vývoje systémů
Komplexní sítě
komplexní síť → graf se specifickými vlastnostmi, zejména
efektivnost (efficiency)
zranitelnost (fragility, vulnerability)
tyto vlastnosti důsledkem
tzv. efektu malého světa
heterogennosti
distribuce hran u uzlů se řídí mocninným zákonem
bezškálová síť
Heterogennost
Komplexní sítě
odkud se berou tyto vlastnosti?
dynamika sytému → růst nestejné vlastnosti jednotlivých uzlů → preferenční připojování
Jazyk & sítě
proč zkoumat jazyk prostřednictvím metod TKS?
(jazykové) univerzálie
vlastnosti jazyka jako komplexního systému
srov. redukcionismus vs. komplexita „Unless we know something about the structure of these networks, we cannot hope to understand fully how the corresponding systems work.“ (M. Newman)
evoluce jazykového systému
nové interpretace jevů/procesů, např.
akvizice
dysfunkce – agramatismus
typologie
Jazyk v síti
„jaký“ jazyk lze zkoumat prostřednictvím teorie sítí?
jazyk jako vlastnost souboru (mluvčích)
jazyk jako projev chování
Jazyk & komplexní sítě
analýzy jazyka prostřednictvím TKS lze chápat jako test hypotézy, podle které je evoluce jazyka a jeho struktura výsledkem vlivu univerzálních mechanismů (růst, preferenční připojování) → nejazykové univerzálie
Jazyk & komplexní sítě
pokud hypotéza platí, jazyk musí vykazovat následující hodnoty
distribuce hran se musí řídit mocninným zákonem −γ P (k )≈k fenomén malého světa
malá průměrná vzdálenost mezi uzly
vysoký koeficient shlukování
poměr mezi počtem hran, které existují mezi sousedy daného uzlu, a počtem všech možných hran mezi sousedy daného uzlu u náhodných sítí velmi malý pro celou síť se počítá jako aritmetický průměr koeficientů celé sítě
Jednotky & vztahy
kolokační sítě (cooccurence networks)
uzel → slovo hrana → souvýskyt, tj. jsou spojena slova vyskytující se ve vetě vedle sebe
syntaktické sítě
uzel → slovo
hrana → syntaktický vztah (dependence)
Jednotky & vztahy
sémantické sítě
uzel → slovo
hrana → sémantický vztah (synonymie)
fonologické sítě
uzel → foném hrana → fonémy jsou spojeny, pokud se vyskytují ve stejném slově
slabiční sítě
uzel → slabika hrana → slabiky jsou spojeny, pokud se vyskytují ve stejném slově
Výsledky
Důsledky
výsledky odhalují
nový typ univerzálních vlastností jazyka
nejsou zaměřeny na tradiční jazykové vlastnosti, jako je slovosled či inventář fonémů statistické vlastnosti, které lze chápat jako výsledek komunikačního procesu (v širokém slova smyslu)
rozdělení konektivit podle mocninného zákona → vztah k Zipf‘s principle of least effort jazyk podobným typem systému, jako systémy sociálních vztahů, internet atd. → předpoklad obecných zákonů řídících chování tohoto typu systémů
Důsledky
interpretace výsledků (syntaktické sítě)
fenomén malého světa
ukazuje, jak „jednoduchá“ je mentální navigace → vezmemeli libovolná 2 slova v síti, stačí nám několik málo kroků k tomu, abychom se dostali od jednoho k druhému (navzdory velikosti sítě)
heterogennost
nejvyšší počet konektivit mají funkční slova → odstranímeli je, síť se rozpadá...
Důsledky
vlastnosti komplexních sítí výsledkem dynamiky systému (růst) → analýza
ontogeneze (akvizice)
evoluce
typologie → mohou rozdíly vlastností sítí reflektovat typologické rozdíly mezi jazyky?
Preferenční připojování
S. N. Dorogovtsev & J. F. F. Mendes: Language as an evolving word web (2001)
Preferenční připojování
Preferenční připojování – syntaktická síť (PDT 2.0) in-degrees
word
in-degrees
word
1
15044
a
15
1670
do
2
7441
být
16
1660
za
3
3935
v
17
1593
pro
4
3677
na
18
1570
že
5
3489
mít
19
1384
muset
6
3094
s
20
1333
stát
7
2832
z
21
1027
po
8
2447
o
22
969
od
9
2288
nebo
23
914
chtít
10
2167
moci
24
901
podle
11
2112
ale
25
899
říci
12
1936
k
26
794
při
13
1882
i
27
787
než
14
1704
či
28
772
však
Komplexní sítě & jazyková akvizice
CorominasMurtra, B., Valverde, S., & Solé, R. V. (2010). Emergence of scalefree syntax networks. sledování jazykového vývoje u jedinců → modelování sítí v jednotlivých fázích vývoje jazyka jedince
Komplexní sítě & jazyková akvizice
jazykový materiál
Manchester corpus
spontánní řečové projevy dětí s dospělými
analyzovány korpusy 2 dětí (kluci)
Komplexní sítě & jazyková akvizice
algoritmus
vybrány pouze ty řečové projevy dětí, které nejsou imitací, neberou se v potaz onomatopoeia a neidentifikovatelné lexikální jednotky identifikace minimálních syntaktických konstrukcí → word grammar (Hudson 2006 ) slova spojena hranou, pokud je mezi nimi syntaktický vztah izolovaná slova nebrána v potaz
Komplexní sítě & jazyková akvizice
22 měsíců 23 měsíců 25 měsíců
Komplexní sítě & jazyková akvizice
Komplexní sítě & jazyková akvizice
Komplexní sítě & jazyková akvizice
pokus vytvořit model
který bude vykazovat ostrý přechod mezi grafy (měřeno počtem konektivit) jehož výsledkem by bude bezškálová síť
modely založené na principu preferenčního připojování však nevykazují fázový přechod k stromového grafu k bezškálové síti → nutnost udělat „datadriven“ model
Komplexní sítě & jazyková akvizice
model
z jednoho ze zkoumaných dětských korpusů využity informace o frekvenci slov a frekvenci syntaktických konstrukce o délce s = <1,11>
algoritmus (nesyntaktický) 1. náhodně vygenerováno číslo <1,11> 2. na základě Zipfova zákona vybrána „slova“ 3. po sobě jdoucí slova spojena hranou 4. body 13 opakovány do té doby, dokud není naplněn počet syntaktických konstrukcí v pozorovaný v dětském korpusu
Komplexní sítě & jazyková akvizice
v modelu funguje
změna topologie sítě (vzhledem k tomu, že nejsou implementovány syntakt. vztahy, dají se vlastnosti syntakt. sítí vidět jako vedlejší produkt Zipfova zákona)
nefunguje
podoba syntaktických vztahů u subgrafů
změna hubs
Komplexní sítě & jazyková akvizice
vzhledem k tomu, že žádný dosavadní model vývoje sítí nevykazuje kvalitativní změnu, jak se projevuje při jazykovém vývoji, nelze vidět vznik syntaktické sítě jako pouze jako výsledek samoorganizace změna hubs a podoba subgrafů nemohou být vysvětlena přidáním dalších pravidel → předpokládá se vliv vnitřního mechanismu → podpora Miller & Chomsky (1965)
Komplexní sítě & jazyková akvizice
Anat Ninio: Language and the Learning Curve. Oxford University Press, 2006. “According to our model, children do not reinvent the linguistic network, nor they internalize it. Instead, when children begin to produce words of their own, they link into the linguistics network, becoming part of the system. Indeed, children acquiring language are just like new users ling into World Wide web: by linking into Web, users become part of it.“
Komplexní sítě & jazyková akvizice
bipartite network → uzly
a) mluvčí
b) jazykové jednotky
Komplexní sítě & jazyková akvizice
„According our theory, children acquire lexicalist grammar in which information about the syntactic behaviour of individual predicates (e.g., verbs) is stored in their lexical entry, in form of valency information.“ proces modelovaní, např. VO syntaktické konstrukce
jakmile mluvčí vysloví VO konstrukci („dej čaj“), je zapojen do sítě v jazykové části sítě se vytvoří uzel reprezentujíc lexikální jednotku verba
Komplexní sítě & jazyková akvizice
hypotéza: nové uzly (mluvčí) připojující se k síti by se měly chovat podle principu preferenčního připojování a výsledkem by měla být bezškálová komplexní síť na příkladu tranzitivních konstrukcí sleduje podobu sítě porovnává sítě matek a dětí → děti okamžitě vytvářejí síť se stejnou strukturou (srov. hodnoty exponentů), přestože vůbec nekopírují jazyk, který matky používají → např. se zde nemá vliv frekvence slov
Komplexní sítě & jazyková akvizice matky
50
Number of mothers
40
30
20
10
0 0
25
50
75
100
125
150
175
200
225
250
Rank order of verbs Figure 5.5 Rank-frequency Zipf curve of number of mothers producing VI sentences with each verb, as a function of the verb's rank.
Komplexní sítě & jazyková akvizice děti
1st 2 verbs 1st 3 verbs 1st 4 verbs 1st 5 verbs 1st 6 verbs 1st 7 verbs 1st 8 verbs 1st 9 verbs 1st 10 verbs Power (1st 2 verbs) Power (1st 3 verbs) Power (1st 4 verbs) Power (1st 5 verbs) Power (1st 6 verbs) Power (1st 7 verbs) Power (1st 8 verbs) Power (1st 9 verbs) Power (1st 10 verbs)
14
12
Number of children
10
8
6 4
2
0 0
5
10
15
20
25
30
35
40
45
50
55
60
Rank order of verbs Figure 5.7 Distribution of number of children by rank order of verbs, for the first 2, 3, 4, 5, 6, 7, 8, 9 and 10 different verbs in VI sentences.
65
Komplexní sítě & jazyková akvizice
2011
Syntaktické sítě
Ferrer i Cancho et. al (2004) → první analýza syntaktických sítí (Němčina, Rumunština, Čeština)
Syntaktické sítě
„One may argue that the regularities encountered here are not significant unless it is shown that they are not a trivial consequence of some pattern already present in the syntactic structure of isolated sentences.“
Syntax for free? (Solé 2005, Nature)
Role syntaxe v syntaktické síti
H. Liu & F. Hu: What role does syntax play in a language network? (2008)
If dependencies are built by randomly linking words in the same sentence, would the network still follow the properties similar to the syntactic one? Can the local (micro) syntactic analysis in a sentence be reflected in the global (macro) properties of a language network?
Role syntaxe v syntaktické síti
analýza „náhodného“ parsingu
algoritmus
ze syntaktického stromu reálné věty odstraněny všechny linky náhodně vybrán kořenový uzel
R1 → náhodně generován každému uzlu jeho řídící uzel (kromě kořenového uzlu a sebe samého) R2 → přidána podmínka projektivity
Role syntaxe v syntaktické síti R1
R2
Role syntaxe v syntaktické síti
Syntaktická síť vs. náhodné sítě
d D k C
S 3.372 10 6.48 0.128
R1 3.147 9 7.80 0.185
R2 3.129 9 7.95 0.175
Role syntaxe v syntaktické síti
„If nonsyntactic and syntactic networks are scalefree, perhaps we might not argue that syntactic rules are just a byproduct of scalefree networks (Solé 2005). Our findings probably are not enough to dismiss the claim in (Solé 2005), but they may show that the indicators of complex networks are not enough to study the syntax of human language.“ „Our study also shows that while the network analysis focuses on the global organization of a language, it may not reflect the subtle syntactic differences of the sentence structure. If we disregard the agency of the vertex (word) in a language network, it is difficult to study micro syntactic problems by macro means as a complex network.“
Role syntaxe v syntaktické síti
Jak zjistit, zda syntax má či nemá vliv na podobu syntaktické sítě? východisko → najít nějakou „silnou“ vlastnost, která má výrazný vliv na podobu věty, která by mohla mít vliv i na podobu syntaktické sítě (Čech et al. 2011)
Role syntaxe v syntaktické síti
slovesná valence (resp. plná valence)
hypotéza: lokální významnost sloves se projeví jako globální významnost v syntaktické síti, tj. slovesa by měla patřit mezi „významné“ prvky syntaktické sítě
lokální významnost → slovesná valence významný vliv na strukturu věty
plná valence → nerozlišuje komplementy a adjunkty, více viz Čech, R., Pajas, P., Mačutek, J. (2010). Full Valency. Verb Valency without Distinguishing Complements and Adjuncts. Journal of Quantitative Linguistics, 17, 291302.
Role syntaxe v syntaktické síti
globální významnost a) počet konektivit b) centralita → dáno počtem cest, které procházejí daným uzlem, když jsou počítány nejkratší cesty mezi všemi uzly v síti (používáno u sociálních sítí) → betweenness centrality c) hub/authority měření
Role syntaxe v syntaktické síti
proč by slovesa měla být globálně významná?
alespoň jedno sloveso „nutně“ v každé větě → relativně vysoká frekvence valence (resp. plná valence) si vynucuje doplnění → roste počet konektivit
! námitka → vysoký počet konektivit u sloves dán volbou formalismu, kdy sloveso je kořenem syntaktického stromu, tudíž se dá očekávat, že bude mít relativně vysoký počet konektivit
Role syntaxe v syntaktické síti
PDT 2.0 → z 54022 vět obsahujících jak podst. jméno, tak sloveso měla podstatná jména vyšší počet konektivit v 4261 případů → v každé 12. větě kořenové postavení slovesa automaticky nezajistilo jeho nejvyšší počet konektivit
Data & metoda
6 jazyků
Čeština, Holandština, Katalánština, Maďarština, Portugalština, Italština (treebanky)
lemmatické orientované sítě (tvorba pomocí Pajek 2.00)
multigraf
počítány pouze outdegrees
lemmata seskupena podle klesajících outdegrees a sledován poměr sloves a jiných slovních druhů
Syntaktické sítě & typologie
porovnání hodnot slovnětvarové (STS) a lemmatické sítě (LS) východisko → jazyky bez flexe nebudou vykazovat žádné rozdíly mezi STS a LS problém → příčiny rozdílů mezi STS a LS a jejich vliv na statistické charakteristiky (Čech & Mačutek 2009)
Vlastnosti syntaktických sítí → lemmata vs. slovní formy
jazykový materiál → PDT 2.0
uzel sítě → lemma, resp. slovní forma
hrana → syntaktický vztah závislosti (dáno anotací na arovině) lemmatická dependenční síť
otázka: vykazuje lemmatická síť vlastnosti komplexní sítě? lemmata použita pouze 1x pro cooccurence síť (Caldeira et al. 2006)
Vlastnosti LS
n k C d
LS 36037 13.34 0.18 3.58
Vlastnosti sítí
n k C d
STS 73989 8.19 0.12 3.84
LS 36037 13.34 0.18 3.58
konektivita (k)
na základě čeho se projevují rozdíly k mezi STS a LS?
STS vs. LS
rozdíly v k způsobeny
flexí
realizací syntaktických vztahů
vliv jak gramatiky, tak užití jazyka → možnosti pro analýzy žánrů, autorství atd.
STS vs. LS
networks based on languages with no inflection (as a highly isolating language) will have zero discrepancy, networks based on languages with low inflection (as English) will have zero discrepancy or higher average degree of WFN, for networks based on highly inflectional languages it is not possible to make theoretical hypotheses; all the three potential kinds of discrepancy could appear because the discrepancy value is significantly influenced by language usage.
STS & LS koeficient shlukování (C)
u syntaktického vztahu slov bez flexe CSTS = CLS u syntaktického vztahu slova bez flexe a slova flektivního může nastat
CSTS < CLS
CSTS = CLS
CSTS > CLS
Typologie
Liu, H. & Xu, C. (2011). Can syntactic networks indicate morphological complexity of a language? Europhysics Letters 93, 28005.
15 jazyků; STS & LS síť pro každý jazyk
parametry
konektivita
koeficient shlukování
průměrná vzdálenost mezi dvěma uzly
největší vzdálenost mezi uzly
exponent
počet linek
determinační koeficient
STS SLS
LS
Syntaktické sítě & synergetická lingvistika
synergetická lingvistika (Köhler 1986, 2005)
snaha o vytvoření jazykové teorie
teorie → chápána jako soubor univerzálních zákonů z nichž je možné odvodit empiricky testovatelné hypotézy
jazyk jako samoregulující se systém
navazuje na G. K. Zipfa (1935, 1949)
the principle of least effort
Hypotézy (synergetická lingv.)
vztah délky slova a počtu konektivit
vztah polysémie a počtu konektivit
H: čím větší počet konektivit, tím kratší slovo H: čím větší počet konektivit, tím větší polysémie
vztah synonymie a počtu konektivit
H: čím větší počet konektivit, tím má slovo více synonym
References
Barabási, A. L. (2005) V pavučině sítí. Praha: Paseka. Caldeira, S.M.G., Petit Lobão, T.C., Andrade, R.F.S., Neme, A., & Miranda, J.G.V. (2006). The network of concepts in written texts. European Physical Journal B 49, 523529. CorominasMurtra, B., Valverde, S., & Solé, R. V. (2010). Emergence of scalefree syntax networks. In: "Evolution of Communication and Language in Embodied Agents", Nolfi, E. & Mirolli, M. (eds.), Springer, pp. 8399. Čech, R. & Mačutek, J. (2009). Word form and lemma syntactic dependency networks in Czech: a comparative study. Glottometrics 19, 8598. Čech, R., Pajas, P., Mačutek, J. (2010). Full Valency. Verb Valency without Distinguishing Complements and Adjuncts. Journal of Quantitative Linguistics, 17, 291302. Čech, R., Mačutek, J., & Žabokrtský, Z. The role of syntax in complex networks: local and global importance of verbs in a syntactic dependency network, Physica A: Statistical Mechanics and its Applications 390 (20), 36143623. Dorogovtsev, S. N. & Mendes J. F. F. (2001). Language as an evolving word web. Proceedings of the Royal Sociey of London B 268, 26032606.
References
Ferrer i Cancho, R. & Solé, R. V. & Köhler, R. (2004). Patterns in syntactic dependency networks. Physical Review E 69, 051915. Hudson, R. (2006). Language networks. The new word grammar. New York: Oxford University Press. Köhler, R. (1986). Zur linguistischen Synergetik. Struktur und Dynamik der Lexik. Bochum: Brockmeyer. Köhler, R. (2005). Synergetic linguistics. In: Köhler, R., Altmann, G., Piotrowski, R.G. (eds.), Quantitative Linguistik. Ein internationales Handbuch. An International Handbook: 760774. BerlinNew York: de Gruyter. Liu, H. & Hu, F. (2008). What role does syntax play in a language network? Europhysics Letters 83, 18002. Liu, H. & Xu, C. (2011). Can syntactic networks indicate morphological complexity of a language? Europhysics Letters 93, 28005. Miller, G. A. & Chomsky, N. (1963). Finitary models of language users. In R. D. Luce, R. Bush, and E. Galanter, editors, Handbook of Mathematical Psychology, volume 2, pages 419–491. Wiley, New York.
References
Ninio, A. (2006). Language and the learning curve: a new theory of syntactic development. Oxford: Oxford University Press. Ninio, A. (2011). Syntactic development, its input and output. Oxford: Oxford University Press. Solé, R.V. (2005) Syntax for free? Nature 434, 289. Zipf, G.K. (1935/1968). The psychobiology of language. An introduction to dynamic philology. Cambridge, Mass: MIT. Zipf, G.K. (1949). Human behaviour and the principle of least effort. Reading, Mass.: AddisonWesley.
vice viz: Bibliography on linguistic and cognitive networks http://www.lsi.upc.edu/~rferrericancho/linguistic_and_cognitive_n etworks.html