WEBOVÉ KORPUSY ARANEA A VÍCEJAZYČNÉ KOLOKAČNÍ PROFILY Datum konání:
11. dubna 2014
Místo konání:
Filozofická fakulta Masarykovy univerzity (učebna G13)
Název přednášky:
Webové korpusy Aranea a vícejazyčné kolokační profily
Přednášející:
Ing. Vladimír Benko
Počet účastníků:
15
Zpracovali:
Poláčková Lucie, Tomanová Kateřina
Dne 11. dubna 2014 se konala tento semestr již třetí přednáška externího odborníka, týkající se počítačového zpracování přirozeného jazyka a spadající pod předmět Odborná přednáška a exkurze II. Zúčastnilo se celkem 15 posluchačů. Expert Ing. Vladimír Benko, nás nejprve obeznámil s teoretickými informacemi z oblasti webového korpusu, blíže nás seznámil s korpusem Aranea a se systémem Word Sketch Engine. Během druhé části přednášky, která byla zaměřena prakticky, jsme byli poučeni o základech práce v již zmíněném systému Word Sketch Engine.
Ing. Vladimír Benko Vladimír Benko vystudoval na technické univerzitě obor se zaměřením na kybernetiku. s Pedagogickou
Od
90.
fakultou
let
úzce
spolupracuje
Univerzity
Komenského
v Bratislavě a s Jazykovědným ústavem Ľudovíta Štúra. Podílel se na tvorbě Slovníku pořadových morfémů, který obdržel v roce 2005 cenu Slovenského literárního fondu. Publikuje odborné články a jeho hlavním zaměřením je spolupráce s lingvisty na aspektech slovníku. V roce 2007 se zúčastnil semináře s názvem Lexikon, který jej inspiroval k práci se systémem Sketch Engine, který následně upravoval. Nyní se také věnuje kurzům o webových korpusech pro jiné katedry.
Textový jazykový korpus (lat. Corpora) Jedná se o rozsáhlou sbírku textů v elektronické podobě, díky níž je možné nalézt slova a slovní spojení v kontextu a získat jejich frekvenci a původní textový zdroj. Textový jazykový korpus je budován s úmyslem získat reprezentativní vzorek jazyka, otázkou však zůstává, jak zjistit daný vzorek, abychom dosáhli co nejpřesnější informace o něm. Hlavními body korpusu jsou reprezentativnost spolu s vyvážeností informací a dat.
Vyhledávání v textovém korpusu Všechna hledaná slova musí být psána malými písmeny. Ve slovníku jsou problémy s adjektivy a podobný problém se týká i zkratek. Apostrofy jsou součástí prvního písmene, patří tedy k základnímu tvaru (např. francouzština).
Dělení korpusů Z hlediska jazyka lze korpusy dělit do dvou skupin, na jednojazyčné a dvoj- či vícejazyčné. Dvojjazyčný a vícejazyčný korpus může obsahovat vzájemné překlady textů, takový korpus je označován jako paralelní. Vícejazyčné porovnatelné korpusy jsou stejné co se žánru, velikosti nebo kupříkladu doby vzniku textu týče. Korpusy z hlediska původu textu jsou buď tradiční, tedy ty, které jsou pokryty autorským zákonem získaným od majitelů autorských práv, nebo webové, u nichž je vlastnictví autorských práv nejasné. Do tradičních korpusů spadá beletrie, odborná literatura, publicistika nebo právní dokumenty. Webové korpusy obsahují texty získané z internetu.
Webový korpus Webové korpusy se od těch tradičních liší z hlediska žánrů a registrů. K žánrům patří firemní prezentace, osobní stránky, blogy, diskuze a podobně. Zde je ale také velký podíl neformálního jazyka, nestandardní ortografie, chybějící diakritiky, chyb v pravopise a jiných nedostatků. Krom toho může docházet k míšení jazyků, zejména v internetových diskuzích. Rozdíl je také v době vzniku textu, ve webových korpusech převládají mladší texty (z posledních 5–10 let) a ve velikosti, internet totiž nabízí možnost vytvořit korpus až o několik řad větší, než jsou největší existující tradiční korpusy. Prvním bodem tvorby webového korpusu je stahování dat z internetu metodou tzv. kalkulování. Dále se text musí extrahovat, což znamená, že se musí odstranit strukturní značky a grafické prvky. Je nutné odstranit i navigační prvky a konstantní části stránek, do nichž spadají reklamy a odkazy označované také jako boilerplate. Jelikož jsou jazyky na internetu různě promíchány, provádí se jazyková filtrace
založená na odstranění textu v cizím jazyce s nesprávnou diakritikou. Velký problém u webových korpusů je deduplikace dokumentů, což je množina identických dokumentů. Z této množiny je žádoucí ponechání jen jedné kopie. Mezi standardní postupy a nástroje korpusové lingvistiky patří segmentace (členění odstavců a vět), tokenizace (členění na textová slova), lematizace (přiřazování slovům jejich základní tvar), tagging (přiřazování morfologické značky).
Korpus Aranea Název korpusu pochází z latinského slova araneum, které označuje pavučinu a obsahuje jazyky, kterými se mluví na Slovensku a v okolních krajinách, zahrnuje převážně cizí jazyky. Dělí se na čtyři verze podle velikosti:
Maius – základní, obsahující asi 1 miliardu tokenů Minus – obsahuje zhruba 100 milionů tokenů, užívaný ve vyučování Minimum – 10 milionů tokenů Maximum – zhruba 5,5 miliardy tokenů jen pro češtinu
Zpřístupněné verze:
Připravované verze:
Word Sketch Engine Program Word Sketch Engine obsahuje automatické výčty na bázi korpusu, které zobrazují gramatické a kolokační chování slov. Kolokační profil je soubor pravidel, definující kolokační vztahy podle potřeb uživatele. Kolokační gramatika je založena na jazyce CQL (Corpus Query Language). Ukázka práce webového korpusu czTenTen, kde klíčovým slovem bylo víno. Druhá polovina přednášky byla zaměřena na praktické užití programu Word Sketch Engine. Do systému jsme zadali slovo láska, které nám vygenerovalo 10 sloupců. Word Sketch Engine lze používat i v mnoha dalších jazycích.
modifier = přívlastky shodné, stojící vlevo od hledaného výrazu (boží láska) prec_prep = předložka vlevo (s láskou) gen 2 = genitivní vztah dvou substantiv (bohyně lásky) coord = vztah lexikálně vyjádřené koordinace s jednotkou stejné třídy (láska a nenávist)
post_k = předložka se 3. pádem (láska k létání) post_verb = verbum vpravo (láska vítězí) is_subj_of = hledaný výraz je podmětem (láska vyprchá) is_obj4_of = výraz je předmětem ve 4. pádě (vyznávat lásku) prec_verb = verbum vlevo (zahořet láskou) prec_o = předložka s 6. pádem (píseň o lásce)
Závěr Přednáška byla velmi obohacující jak v teoretické části, ve které nám Ing. Vladimír Benko představil webový korpus Aranea a vícejazyčné kolokační profily, tak hlavně v praktické části, ve které jsme si mohli vyzkoušet fungování programu Word Sketch Engine.
Prezentace Ing. Benka je dostupná v dokumentovém serveru ISu. Cesta je: Dokumenty – Filozofická fakulta – Pracoviště – Centrum počítačové lingvistiky.