KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!

KORPUSOVÝ WORKSHOP VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!

Václav Cvrček, Lucie Chlumská 13. 2. 2013 Univerzita Karlova v Praze

O (Ú)ČNK 

Ústav Českého národního korpusu, založen v roce 1994 prof. Františkem Čermákem  jedna

z kateder FF UK

 hlavním

dlouhodobým projektem je ČNK

 obecné

i specializované semináře a přednášky pro studenty i veřejnost (překladatele, učitele apod.)

 doktorské

studium v oboru korpusová lingvistika

O ČNK 

Cílem ČNK je:  dlouhodobě

a podrobně mapovat vývoj češtiny, jak historické, tak současné  sestavovat a spravovat korpusy a zajišťovat k nim veřejný přístup  provádět výzkum  vytvářet nové, uživatelsky zaměřené specializované korpusové nástroje 

http://www.korpus.cz/  Informace

o ČNK, manuály a přístup ke korpusům

O ČNK  ČNK

jako národní výzkumná infrastruktura (od roku 2012)  bylo

schváleno pouze 15 projektů velké infrastruktury ze všech oblastí, ČNK jako vzorový projekt  financováno v rámci aktivity Projekty velkých infrastruktur pro VaVaI, MŠMT (LM2011023)  cíle: budování korpusů a jejich anotace, hostování korpusů, zajišťování veřejného přístupu, jazykové zdroje (balíčky dat)

Přístup ke korpusům ČNK 

Přístup ke korpusům je pro všechny uživatele ZDARMA  nezbytná elektronická

registrace  více než 3 000 aktivních registrovaných uživatelů  přibližně 1 200 dotazů/den 

Software:  server:

Manatee (autor: Pavel Rychlý z MU Brno)  klient: Bonito/The Sketch Engine nebo Park  v plánu nové rozhraní pro jednojazyčné i vícejazyčné korpusy

Dostupné korpusy ČNK 

Synchronní korpusy psané češtiny: řada SYN



Synchronní korpusy mluvené češtiny: řada ORAL



Diachronní korpus (14.–20. století): DIAKORP



Paralelní korpus (22 evropských jazyků): InterCorp



Malé specializované korpusy (Deaf, Dopisy a další)

Synchronní psané korpusy název

velikost

popis

SYN2000

100 mil.

vyvážený korpus; většina textů z let 1990–1999

SYN2005

100 mil.


SYN2006PUB 300 mil.

publicistické texty z let 1989–2004

SYN2009PUB 700 mil.

publicistické texty z let 1995–2007

SYN2010

100 mil.


SYN

1 300 mil. nereferenční korpus, souhrn všech SYN korpusů

  

všechny korpusy lemmatizovány a morfologicky označkovány vyvážený korpus jednou za 5 let referenční vs. nereferenční korpusy

Synchronní psané korpusy 

Kritérium reprezentativnosti: recepce vs. produkce  korpusy řady SYN založeny na recepci (tj. co se čte)  distribuce text. typů a žánrů na základě sociologické studie z roku 2000 – nová studie je třeba 



Korpusy SYN zahrnují jak originální, tak překladové české texty (tvoří přibližně třetinu) beletrie: především novější, ale limitem je rok vydání 1945 (autoři narození po 1880)  publicistika: současná (za každý rok stejný objem textu)  odborná literatura: po roce 1990 

Synchronní mluvené korpusy název

velikost

popis

ORAL2006

1 mil.

korpus neformální mluvené češtiny

ORAL2008

1 mil.

sociolingvisticky vyvážený korpus neformální mluvené češtiny

  

referenční korpusy – po zveřejnění se nemění neformální situace – konverzace v rodině nebo s přáteli není lemmatizace, ani značkování 



plánovaný ORAL2013:  



zatím nespolehlivé – dialektismy a hovorové výrazy data sbírána z celé republiky (nejen z Čech) transkripce zarovnána se zvukovou stopou

plánovaný ORAL – protějšek SYNu, nereferenční, lemmatizovaný a značkovaný

Diachronní korpus název

velikost

popis

DIAKORP

2 mil.

korpus mapující sedm století vývoje češtiny (14.–20. století)

  

nereferenční korpus transkripce, nikoli transliterace plánovaná lemmatizace a značkování  

především 19. století hyper-lemma: způsob, jak vyhledat všechny pravopisné varianty jednoho lemmatu

Paralelní korpus název

velikost

popis

InterCorp

v současnosti 542 mil. (92 mil. beletrie, zbytek kolekce dat)

paralelní korpus zahrnující 27 evropských jazyků

    

ve spolupráci s dalšími ústavy a univerzitami stále roste zarovnání na úrovni vět lemmatizace a značkování u těch jazyků, kde je k dispozici čeština jako pivot

Vyhledávací rozhraní No Sketch Engine

Korpus SYN

Korpus Oral

Nové korpusové nástroje 

SyD: webový nástroj pro průzkum variant  synchronní i diachronní perspektiva  využívá korpusů SYN2010, ORAL2008 a DIAKORP  živé vizualizace a uživatelsky příjemné prostředí  bez registrace na syd.korpus.cz! 



Morfio: nástroj pro studium slovotvorby v češtině  vyhledává v korpusu podobně utvořená slova podle zadaného vzoru (sufixu či prefixu), umí je i porovnat 



Keywords: 

dokáže v textu najít klíčová slova a porovnat je s ref. textem

KORPUSOVÝ WORKSHOP. Václav Cvrček, Lucie Chlumská Univerzita Karlova v Praze VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!

Recommend Documents