Számítógépes Nyelvészet – nyelvi adatbázisok és használatuk Középiskolás szakkör előadás fóliák http://www.inf.u--szeged.hu/hlt http://www.inf.u
2008.12.04.
1
Tartalom A számítógépes szövegfeldolgozás célja Nyelvi y adatbázisok szerepe p Szófaji kódolás - MSD kódrendszer Korpuszok K k és é a treebank t b k Szófaji egyértelműsítés Főnévi csoportok (NP) felismerés
2008.12.04.
2
A Szövegfeldolgozás célja
Nagy mennyiségű é ű elektronikusan tárolt, á írott formátumú szöveg g feldolgozása g (fájlrendszer, adatbázis, web) Alapvetően információkezelési okokból: keresés, dokumentum visszakeresés, i d indexelés lé Fejlettebb j módszereknél a tárolt információ tömör formában történő összegzése: csak a kívánt információ megjelenítése, megjelenítése kivonatolás, szövegbányászat
2008.12.04.
3
N el i adatbá Nyelvi adatbázisok isok II.
A nyelvi adatbázisok létrehozásának lehetséges céljai: számítógépes algoritmusok fejlesztése a segítségükkel, tanuló adatbázis, adatbázis teszt adatbázis, adatbázis eddig fel nem ismert jelenségek kutatása, a nyelv változásának követése A nyelvi adatbázisok fajtái: gyűjtött szöveg adott forrásból (újság, hírügynökség), lejegyzett szöveg (rádió, parlament), weben halmozódó blog, blog, (hír)portál, jogszabályok gyűjteménye tematikusan gyűjtött szöveg (gazdasági, gyűjteménye, (gazdasági jogi jogi, EU, orvosi, stb.) Annotálás: nyelvi jelenségek megjelölése a szövegben. Kiválóan áó alkalmasak erre a célra é az ún. ú Mark Mark--up (jelölő) ő nyelvek (HTML, SGML, XML) Annotált nyelvi adatbázisok: szófaji kódolás és egyértelműsítés bemutatására, mondatelemzés bemutatása, információkinyerés bemutatása 2008.12.04.
4
Nyelvi adatbázisok II II.
Szakszóval korpusznak nevezik az adott célból gyűjtött ű elektronikus szövegtárakat. á A korpusz adott nyelvi jelenségeket magába f l ló tervezett foglaló, t tt elrendezésű, l d é ű elegendően l dő nagy méretű adattár. BNC (British (B iti h National N ti lC Corpus, http://www.natcorp.ox.ac.uk)) http://www.natcorp.ox.ac.uk OTA (Oxford Text Archive Archive,, http://ota.ahds.ac.uk http://ota http://ota.ahds.ac.uk) ahds ac uk) uk) Gutenberg project, http://www.gutenberg.org http://www.gutenberg.org)) ETCSL (Electronic ((El El t Electronic i Text T tC Corpus off Sumerian S i Literature,, http://www Literature http://www--etcsl.orient.ox.ac.uk) etcsl.orient.ox.ac.uk) P bMed (http://www.pubmed.gov PubMed http // http://www.pubmed.gov) p bmed go ) JRC Acquis Corpus (http://langtech.jrc.it/JRC (http://langtech.jrc.it/JRC-Acquis Acquis.html Acquis.html) html) html)
2008.12.04.
5
Nyelvi adatbázisok III III. Magyar szövegtárak
MTSZ (Magyar Történelmi Szövegtár http://www.nytud.hu/hhc)) http://www.nytud.hu/hhc DIA (Digitális Irodalmi Akadémia, http://www.pim.hu)) http://www.pim.hu MEK (Magyar Elektronikus Könyvtár, http://mek.oszk.hu)) http://mek.oszk.hu Szószablya (http://www.szoszablya.hu (http://www.szoszablya.hu)) eMagyarország (http://www.magyarorszag.hu http://www.magyarorszag.hu)) Parlament ((http://www.parlament.hu http://www.parlament.hu) p p ) Újságok (http://www.hvg.hu (http://www.hvg.hu,, http://www.nol.hu http://www.nol.hu,, http://www.magyarhirlap.hu)) http://www.mno.hu,, http://www.magyarhirlap.hu http://www.mno.hu
2008.12.04.
6
Nyelvi adatbázisok IV IV. Számítógépes g p nyelvészeti y adatbázisok
LDC (Linguistic (Linguistic Data Consortium Consortium,, http://www.ldc.upenn.edu), http://www.ldc.upenn.edu ), ELRA (European Language Resources Association Association,, http://www.elra.info), http://www.elra.info ), MNSZ (Magyar Nemzeti Szövegtár, Szövegtár http://www.nytud.hu/mnsz)) http://www.nytud.hu/mnsz Szeged Korpusz (http://www.inf.u ((http://www http://www.inf.u http://www inf uu-szeged.hu/hlt szeged szeged.hu/hlt) hu/hlt) hu/hlt)
2008.12.04.
7
N el i adatbá Nyelvi adatbázisok isok IV IV.
A nyelvi adatbázisok létrehozásának lehetséges céljai: számítógépes algoritmusok fejlesztése a segítségükkel, tanuló adatbázis, adatbázis teszt adatbázis, adatbázis eddig fel nem ismert jelenségek kutatása, a nyelv változásának követése A nyelvi adatbázisok fajtái: gyűjtött szöveg adott forrásból (újság, hírügynökség), lejegyzett szöveg (rádió, parlament), weben halmozódó blog, blog, (hír)portál, jogszabályok gyűjteménye tematikusan gyűjtött szöveg (gazdasági, gyűjteménye, (gazdasági jogi jogi, EU, orvosi, stb.) Annotálás: nyelvi jelenségek megjelölése a szövegben. Kiválóan áó alkalmasak erre a célra é az ún. ú Mark Mark--up (jelölő) ő nyelvek (HTML, SGML, XML) Annotált nyelvi adatbázisok: szófaji kódolás és egyértelműsítés bemutatására, mondatelemzés bemutatása, információkinyerés bemutatása 2008.12.04.
8
Szófaji kódolás Multext-East EU projekt 1995 Multext1995--97. (http://nl.ijs.si/ME/) http://nl ijs si/ME/) http://nl.ijs.si/ME/ si/ME/) A morfoszintaktikai leírás (MorphoSyntactic Description = MSD) magyar nyelvre alkalmazható változata Jellemzői:
• Az A MSD MSD--kódolásban kód lá b a tulajdonságok l jd á k kódolása egy adott pozíción történik • Az értékek egyetlen karakterrel vannak kódolva 2008.12.04.
9
MSD kódrendszer Példa: Főnevek (Noun) – N asztalt: MSD=Nc-sa, Gábornak : MSD=Np-sg vagy MSD=Np-sd Pozíció
Attribútum
Lehetséges értékek
Kód
Toldalékok (jelek, ragok)
Példa
2
Típus
köznév (common) tulajdonnév (proper)
c p
3
Nem
-
-
4
Szám
egyes (singular) többes (plural)
s p
Ø -k; -i, i -ai/ ai/--ei, ei jai/--jei; jai/ -ék
asztal(om) asztalok, asztalaim szomszédék
5
Eset
alany (nominative) tárgy (accusative) birtokos (genitive) részes és es (dat (dative) e)
n a g d
Ø -t Ø, -nak/ nak/--nek -nak/ nak/a /-nek e
asztal(om) asztal(oma)t asztalnak asztalnak as ta a
2008.12.04.
10
MSD kódrendszer Példa: Igék (Verb) – V foglalnának: Vmcp3p Pozí ció
Attribútum
Lehetséges értékek
Kód
Toldalékok (jelek, ragok)
2
Típus
fő (main) segéd (auxiliary)
m a
3
Mód/forma
kijelentő (indicative) felszólító (imperative) feltételes (conditional)
i m c
fő é i igenév főnévi i é (infinitive) (i fi iti )
n
Ø -j, j -jj, jj -gy, gy -ggy -(n)na/ (n)na/--(n)ne, -ana/ ana/--ene -ni Ø -t/ t/--tt/ tt/--ott/ott/-ett
4
Idő
jelen (present) múlt (past)
p s
5
Személy
első (1) második (2) harmadik (3)
1 2 3
2008.12.04.
Példa
fog
várok vársz vár 11
AS Szintaxis inta is modelle modellezése ése
Frázis struktúra (ágrajz) A kötetlen szórend miatt a magyar nyelvben ez nehézséget okoz. A mondatrészek nem minden esetben rendezhetők fába. Dependencia struktúra (függőségi fa) Minden szónak van egy hierarchiában felette álló őse. őse Az egész mondat felett áll egy virtuális ROOT (gyökér) csomópont, ami alá tartoznak a mondat szavai. szavai Lazább szerkezet,
2008.12.04.
12
Speciális (nyílt) tokenosztályok Megnevezés Szónál kisebb tokenek Idegen szavak, kifejezések
Alcsoportok m – morfémák f – idegen (foreign) kifejezések
Elektronikus címek (web, mail, útvonal, ...)
w – www cím m – e-mail cím p – számítógépes útvonal (fájl) e – számítógépes fájl kiterjesztés o – egyéb cím l – alsó (lower) index u – felső ((upper) pp ) index r – (sport) eredmények t – időpontok f – tizedes törtes mennyiségek ( (vagy pontot t t tartalmazó t t l ó számok) á k) p – százalék értékek g – fok jelet tartalmaz s – előjeles j (egész ( g számok)) q – arányokat tartalmazó tokenek
Indexek (alsó- illetve felső index)) Számot tartalmazó tokenek
m – méretetek e – kifejezések kif j é k x – egyéb tokenek 2008.12.04.
Példák Az -tól/-től tagos esetben ... „Cogito ergo sum” – a latin közmondás szerint ... A www.huninet.hu ... Az e-mail címe:
[email protected] Az értékelés.doc fájlban található ... A .doc doc és a .rtf rtf kiterjesztésű ... Az A mátrix aij elemei ... 2:0-ra verte a Fradi a ... A vonat 16:30-kor indul. A pi értéke közelítően 3.14. A bbevétel ét l 300.000 300 000 Ft volt. lt A kamatláb 40.2% ... A keddi hőmérséklet -3° volt. A –1,, +2 intervallumban ... A kenyér energiatartalma 450 kcal/100g. A szoba mérete 5x3m volt. A 2+2 2+2=4 4 öösszeadás dá eredménye d é ... 13
Egy gy NPNP-szerkezet ágrajza g j
NP
NP NP NP
Ritkán vette ((tudomásul)) {[( {[(az ablak)) előtt ülő asszony] y] jelenlétét} j }
2008.12.04.
14
Az NP NP--annotált szövegrészlet vázlata 1 2 3
Ritkán vette
4 5
10 2008.12.04.
előtt ülő asszony
6 7 8 9
tudomásul
/ .
az ablak
jelenlétét
15
Az g gazdagított g szerkezet ágrajza g j
ADVP
V’
NP*
NP**
HEAD CHILDREN
v
NP
NODE NODE NP*
NP**
ADJP PP NP
Ritkán vette 2008.12.04.
(tudomásul) {[(az ablak) előtt ülő asszony] jelen 16
A gazdagított annotálás XMLXMLstruktúrája 1
2
3
4,5 6 7 8 9 10
2008.12.04.
Ritkán vette tudomásul az ablak előtt e őtt ülő asszony jelenlétét .
17