Inleiding
Zinnen 2
Inleiding • Kenmerken (Features) – Congruentie (Agreement) – Subcategorizatie
• Woordvolgorde (Word order) • Verplaatsing (Dependencies)
• Syntaxis: de combinaties van woorden tot woordgroepen en zinnen. – Wat voor rol spelen de kenmerken van de woorden hierbij? – Wat voor soort woordvolgordes vinden we? – Hoe kunnen die woordvolgordes veranderd worden door middel van verplaatsing? (niet op les) – Computationele theories?
Kenmerken • We zagen al dat woorden tot een bepaalde syntactische categorie behoren. • Noun, Verb, Prep, Det, Pronoun, … • Die categorie bepaalt een belangrijk deel van het syntactisch gedrag van een woord. • Voorbeeld: combinatie met determiner the man, *the happy, *the eat, *the away • Uitgedrukt door NP ! Det Nominal
Kenmerken • Maar categorieën zijn niet voldoende. • Een kleine herschrijfgrammatica S ! NP VP NP ! Det N VP ! V NP
N ! man | vrouw Det ! de V ! ziet | kust
• Deze grammatica genereert een heel kleine taal.
Kenmerken • Een ander probleem als we transitieve en intransitieve werkwoorden willen. • Waarom werkt dit niet? S ! NP VP NP ! Det N VP ! V NP VP ! V
N ! man | vrouw Det ! de V ! ziet | kust | slaapt
Kenmerken • Stel dat we ook meervouden willen: De vrouwen kussen de man
• Waarom werkt dit niet? S ! NP VP NP ! Det N Det ! de VP ! V NP V ! ziet | zien | kust | kussen N ! man | vrouw | mannen | vrouwen
Kenmerken • Kenmerken toevoegen om fijnere onderscheidingen te maken S ! NPsg VPsg
S ! NPpl VPpl
NPsg ! Det Nsg
NPpl ! Det Npl
VPsg ! Vsg NP
Det ! de VPpl ! Vpl NP
Vsg ! ziet | kust
Vpl ! zien | kussen
Kenmerken • feature structure, attribute-value matrix (AVM) • de man: niet alleen NP, maar ook !V enkelvoud en 3e persoon. • CAT NP handiger dan NUMBER sg 3sgNP PERSON 3rd
Kenmerken • AVM’s zijn een manier om talige objecten partieel te beschrijven. • In dit college syntactische objecten (categorieën). • Ook wel gebruikt voor fonologische en semantische structuren.
Kenmerken • Een feature kan een AVM als waarde hebben: • CAT NP AGREEMENT NUMBER sg PERSON 3rd
Kenmerken • S ! NP VP genereert elke mogelijke combinatie van NPs en VPs, ook als ze niet ‘matchen’ in getal en persoon. • S ! NP VP "NP AGREEMENT#= "VP AGREEMENT#
de NP en VP stemmen in AGREEMENT kenmerken overeen
Kenmerken • Agreement kenmerken moeten worden gedeeld tussen een XP en z’n hoofd. • NP ! Det Nominal "NP agreement#= "Nominal agreement# (agreement Det/Nominal weggelaten) VP ! Verb NP "NP agreement#= "NP agreement#
Subcategorisatie • Andere belangrijke eigenschap: – valentie – subcategorisatie-frame – (predikaat)argumentstructuur
• Min of meer synonieme termen: het aantal en het soort constituenten dat een woord bij zich moet of kan hebben.
Kenmerken • Verb ! kust "Verb agreement#= Verb ! kussen "Verb agreement#=
number sg person 3rd number pl
Subcategorisatie • Pol vindt een schat *Pol vindt • Pol slaapt *Pol slaapt een dutje vinden is transitief slapen is intransitief
Subcategorisatie • Vinden is een predikaat met twee argumenten: – de vinder (subject) – het gevondene (direct object)
twee-plaatsig; ariteit, valentie is 2 • Slapen is een predikaat met één argument, dus één-plaatsig
Subcategorisatie • Hoeveel argumenten heeft regenen? • Regenen is nul-plaatsig. • Het regent heeft een expletief subject, een subject zonder betekenis.
Subcategorisatie • Hoeveel argumenten heeft geven? • Drie argumenten: – Gever – subject – Gegevene – direct object – Begunstigde – indirect object
• Geven is drie-plaatsig.
Subcategorisatie • Hoeveel argumenten hebben de volgende werkwoorden: – Hiermee kunt u het laatst gekozen nummer herhalen. – Het lampje brandt onafgebroken in de handsfree- of headsetmodus. – Hiermee kunt u informatie krijgen over de (voorgeprogrammeerde) toetsen. – wanneer hier door een z.g. automatische telefoniste om gevraagd wordt
Subcategorisatie • Maar let op: subcategorisatie (subcat) feature kijkt alleen naar argumenten binnen de VP. • Het subject wordt er buiten gelaten. • SUBCAT(egorizatie) is zelf een kenmerk van categorieën, dat aangeeft welke soorten categorieën vereist zijn.
Subcategorisatie •
Verb ! slaapt
•
Verb ! kust
"Verb subcat first# = end "Verb subcat first cat# = NP "Verb subcat second# = end •
VP ! Verb NP "VP subcat first cat#= "NP cat# "VP subcat second#= end VP ! Verb "VP subcat first#= end
Woordvolgorde • Vergelijk de volgende zinnen: – Brutus bemint Lucia – Brutus Luciam amat
(Latijn)
Woordvolgorde: Typen • De meeste talen in de wereld zijn SVO of SOV. • VSO en VOS komt ook wel voor. • OSV en OVS het minst.
• Een verschil: – Nederlands: S(ubject) V(erb) O(bject) – Latijn: S(ubject) O(bject) V(erb)
• Hixkaryana (Brazilië, OVS, 600 sprekers) toto yonoye kamara persoon at jachtluipaard
Natural languages
Context-free grammar • This is an a different model for describing languages • The language is specified by productions (substitution rules) that tell how strings can be obtained, e.g. A → 0A1 A→B B→#
• CFGs were first used for natural languages a girl with a flower likes the boy ART NOUN
A, B are variables 0, 1, # are terminals A is the start variable
CMPLX-NOUN
PREP
ART
NOUN
VERB
CMPLX-NOUN
ART
NOUN
CMPLX-NOUN NOUN-PHRASE
PREP-PHRASE
CMPLX-VERB
A $ 0A1 $ 00A11$ 000A111 $ 000B111 $ 000#111
VERB-PHRASE
NOUN-PHRASE SENTENCE
Derivations
Some examples • We can describe parts of English like this: SENTENCE → NOUN-PHRASE VERB-PHRASE NOUN-PHRASE → CMPLX-NOUN NOUN-PHRASE → CMPLX-NOUN PREPPHRASE VERB-PHRASE → CMPLX-VERB VERB-PHRASE → CMPLX-VERB PREP-PHRASE PREP-PHRASE → PREP CMPLX-NOUN CMPLX-NOUN → ARTICLE NOUN CMPLX-VERB → VERB NOUN-PHRASE CMPLX-VERB → VERB variables: SENTENCE, NOUN-PHRASE, … terminals: a, the, boy, girl, flower, likes, touches, sees, with start variable: SENTENCE
ARTICLE → a ARTICLE → the NOUN → boy NOUN → girl NOUN → flower VERB → likes VERB → touches VERB → sees PREP → with
(1) (2) (3) (4) (5) (6) (7) (8) (9)
SENTENCE → NOUN-PHRASE VERB-PHRASE NOUN-PHRASE → CMPLX-NOUN NOUN-PHRASE → CMPLX-NOUN PREPPHRASE VERB-PHRASE → CMPLX-VERB VERB-PHRASE → CMPLX-VERB PREP-PHRASE PREP-PHRASE → PREP CMPLX-NOUN CMPLX-NOUN → ARTICLE NOUN CMPLX-VERB → VERB NOUN-PHRASE CMPLX-VERB → VERB SENTENCE $ NOUN-PHRASE VERB-PHRASE $ CPLX-NOUN VERB-PHRASE $ ARTICLE NOUN VERB-PHRASE
(10) ARTICLE → a (11) ARTICLE → the (12) NOUN → boy (13) NOUN → girl (14) NOUN → flower (15) VERB → likes (16) VERB → (17) touches (18) VERB → sees PREP → with (1) (2) (7)
$ a NOUN VERB-PHRASE $ a boy VERB-PHRASE
(10) (12)
$ a boy CPLX-VERB (4) $ a boy VERB
(9)
$ a boy sees
(17)
Motivation for studying CFGs • Context-free grammars are essential for understanding the meaning of sentences NP ! NP and NP NP ! NP or NP NP ! John NP ! Bill NP ! Sue
sentence: John and Bill or Sue NP $ NP and NP $ NP and NP or NP $ John and NP or NP $ John and Bill or NP $ John and Bill or Sue
meaning: “John, and one of the people: Bill, Sue”
NP $ NP or NP
$ NP and NP or NP $ John and NP or NP $ John and Bill or NP $ John and Bill or Sue
Definition of context-free grammar • A context-free grammar (CFG) is a 4-tuple (V, %, R, S) where – V is a finite set of variables or non-terminals & % is a finite set of terminals (V '% = () – R is a set of productions or substitution rules of the form A → ) where A is a variable V and ) is a string with variables and terminals – S is a variable called the start variable
meaning: “either John and Bill, or Sue”
Derivation • A derivation is a sequential application of productions: )$* means * can be obtained from ) with one production
)$ * * means * can be obtained from ) after zero or more productions
Language of a CFG • The language of a CFG is the set of all strings of terminals that can be derived * from the start variable L(G) = {+ | + , %* and S $ + }
• Such languages are called context-free
Het Cocke-Kasami-Younger (CKY) Algoritme Input: Een string w(1)…w(n) en een CFG in Chomsky Normal Form – regels van de vorm: A! B C (B,C non-terminals) A! a (a terminal)
Het Cocke-Kasami-Younger (CKY) Algoritme Datastructuur: Een matrix t:[0..n]![0..n], waar t (i,j) alle non-terminals bevat van waaruit de substring w(i+1)…w(j) kan worden afgeleid.
Het Cocke-Kasami-Younger (CKY) Algoritme
Het Cocke-Kasami-Younger (CKY) Algoritme
Het CKY-algoritme vult de matrix stap voor stap, door middel van de --operatie, gedefinieerd als volgt voor twee verzamelingen Q en R van non-terminals: Q -R = {A | A!BC is in G voor B,Q en C,R}
Voorbeeld (bij bovenstaande CFG): t(0,3) = { S, -Verb van t(0,1) + NP van t(1,3) VP, -Verb van t(0,1) + NP van t(1,3)
CKY algoritme: for j:=1 to n do begin t(j-1,j) = {A | A!w(j) in G} t(i,k) - is t(k,j) end for i:=j-2 downto 0 do t(i,j) := if S t(0,n) then accept else reject
Het Cocke-Kasami-Younger (CKY) Algoritme Voordeel CKY-algoritme: • Berekent alle parseer-bomen in O(|G|) (vergelijk dit met naïef top-down/bottom-up parseren, beide exponentieel).
Inleiding
Woordvolgorde: Afrika
• Lezen in het boek: Hoofdstuk 15 tot aan 15.4 • Deeltoets 1 (28 mei): alle stof van hoorcolleges, boek en digitale bestanden tot en met college van dit college (19 mei).
Uit: World Atlas of Linguistic Structures
Woordvolgorde: Endo kiyaat cheeliima kuurkee ki-yaat chee-liima kuur-ka-i DP-open FEM-LIMO deur-TH-DF ‘Chelimo opende de deur’ DP = distant past, FEM = feminine, TH = thematic, DF = definite
Woordvolgorde: Parameters • SVO en SOV zijn volgordes die gegenereerd kunnen worden met herschrijfregels + volgorde-parameters – S ! NP VP en VP ! V NP – S ! NP VP en VP ! NP V
(SVO) (SOV)
• VSO is niet zonder meer mogelijk, omdat de VP discontinu is.
Woordvolgorde: Regels • VSO is een problematische volgorde • Neem de volgende regels: S ! NP VP (introduceert subject) VP ! V NP (introduceert object) • Hoe krijgen we een SOV-taal? • Hoe krijgen we een VSO-taal?
Woordvolgorde: Universalia • Volgorde tussen V en O is geen geïsoleerd fenomeen, maar hangt samen met andere volgordes, zoals: – Prepositie en object – Nomen en adjectief
• In het algemeen: hoofden voorop of hoofden achteraan
Woordvolgorde: Hoofd
Woordvolgorde: Endo
• Het hoofd van een woordgroep is het woord dat de eigenschappen van de hele groep bepaalt: – V van VP – P van PP – N van NP – A van AP
Wat zijn dit voor woordgroepen? Wat voor woord staat voorop?
Woordvolgorde: Marking • Woordvolgorde is niet de enige manier om de argumenten van een predikaat te identificeren. • Een alternatieve of complementaire manier: marking, dat wil zeggen, door het argument een speciale vorm te geven: – Brutus Luciam amat – Brutus Lucia bemint nom acc
Verplaatsing: Introductie • Een taal kan wel bepaalde basisvolgorde hebben, maar soms verschijnen de woorden in andere volgordes. • Een van de manieren om dat te analyseren: als de verplaatsing van een woord of woordgroep.
Verplaatsing: Inversie • Vergelijk: – John could walk – Could John walk?
• De ja/nee-vraag kan worden afgeleid van de bevestigende zin door subject en hulpwerkwoord om te draaien (subjectauxiliary inversion)
Verplaatsing: V2 • Nog een vergelijking: (a) Jan belde Marie op (b) dat Jan Marie op belde
• De positie van op laat zien wat de basispositie is van het werkwoord. • Conclusie: V is verplaatst naar de tweede positie van de zin: V2.
Verplaatsing: V2 • Nederlands heeft twee volgordes: • In hoofdzinnen: – Jan kuste Marie
• In bijzinnen: – (Ik denk dat) Jan Marie kuste
• SVO versus SOV • Wat is de basisvolgorde? Welke volgorde is afgeleid? Hoe?
Verplaatsing: V2 Jan _____ Marie op belde Jan _____ Marie op _____ ൾ belde ක Jan belde Marie op _____
Verplaatsing: Wh-movement • Vraagzinnen (wh-question) worden in het Nederlands gemaakt door een vraagwoord (wh-phrase) aan het begin van de zin te plaatsen: – Ik zei dat Jan Marie op belde – Ik vroeg wie Jan op belde
Verplaatsing: Wh-movement • Filler-gap-structuur: Er wordt iets verplaatst (de filler) en er blijft een gap of trace achter op de oorspronkelijke positie. Ik vroeg wie Jan t op belde Ich fragte wen Jan hat t angerufen (wen: accusatief)
Verplaatsing: Wh-movement • Onderliggende structuur: Ik vroeg ___ Jan wie op belde? • Oppervlaktestructuur: Ik vroeg wie Jan ___ op belde?
Verplaatsing: Wh-movement • Unbounded of long-distance De verplaatsing kan soms over lange afstanden plaatsvinden: Wie dacht jij dat Piet zei dat Marie had voorgesteld om t op te bellen Wie dacht jij [ dat Piet zei [ dat Marie had voorgesteld [ om t op te bellen ]]]