KORPUSOVÝ WORKSHOP VŠE, CO JSTE CHTĚLI VĚDĚT O KORPUSU, A BÁLI JSTE SE ZEPTAT!
Václav Cvrček, Lucie Chlumská 13. 2. 2013 Univerzita Karlova v Praze
O (Ú)ČNK
Ústav Českého národního korpusu, založen v roce 1994 prof. Františkem Čermákem jedna
z kateder FF UK
hlavním
dlouhodobým projektem je ČNK
obecné
i specializované semináře a přednášky pro studenty i veřejnost (překladatele, učitele apod.)
doktorské
studium v oboru korpusová lingvistika
O ČNK
Cílem ČNK je: dlouhodobě
a podrobně mapovat vývoj češtiny, jak historické, tak současné sestavovat a spravovat korpusy a zajišťovat k nim veřejný přístup provádět výzkum vytvářet nové, uživatelsky zaměřené specializované korpusové nástroje
http://www.korpus.cz/ Informace
o ČNK, manuály a přístup ke korpusům
O ČNK ČNK
jako národní výzkumná infrastruktura (od roku 2012) bylo
schváleno pouze 15 projektů velké infrastruktury ze všech oblastí, ČNK jako vzorový projekt financováno v rámci aktivity Projekty velkých infrastruktur pro VaVaI, MŠMT (LM2011023) cíle: budování korpusů a jejich anotace, hostování korpusů, zajišťování veřejného přístupu, jazykové zdroje (balíčky dat)
Přístup ke korpusům ČNK
Přístup ke korpusům je pro všechny uživatele ZDARMA nezbytná elektronická
registrace více než 3 000 aktivních registrovaných uživatelů přibližně 1 200 dotazů/den
Software: server:
Manatee (autor: Pavel Rychlý z MU Brno) klient: Bonito/The Sketch Engine nebo Park v plánu nové rozhraní pro jednojazyčné i vícejazyčné korpusy
Dostupné korpusy ČNK
Synchronní korpusy psané češtiny: řada SYN
Synchronní korpusy mluvené češtiny: řada ORAL
Diachronní korpus (14.–20. století): DIAKORP
Paralelní korpus (22 evropských jazyků): InterCorp
Malé specializované korpusy (Deaf, Dopisy a další)
Synchronní psané korpusy název
velikost
popis
SYN2000
100 mil.
vyvážený korpus; většina textů z let 1990–1999
SYN2005
100 mil.
vyvážený korpus; většina textů z let 2000–2004
SYN2006PUB 300 mil.
publicistické texty z let 1989–2004
SYN2009PUB 700 mil.
publicistické texty z let 1995–2007
SYN2010
100 mil.
vyvážený korpus; většina textů z let 2005–2009
SYN
1 300 mil. nereferenční korpus, souhrn všech SYN korpusů
všechny korpusy lemmatizovány a morfologicky označkovány vyvážený korpus jednou za 5 let referenční vs. nereferenční korpusy
Synchronní psané korpusy
Kritérium reprezentativnosti: recepce vs. produkce korpusy řady SYN založeny na recepci (tj. co se čte) distribuce text. typů a žánrů na základě sociologické studie z roku 2000 – nová studie je třeba
Korpusy SYN zahrnují jak originální, tak překladové české texty (tvoří přibližně třetinu) beletrie: především novější, ale limitem je rok vydání 1945 (autoři narození po 1880) publicistika: současná (za každý rok stejný objem textu) odborná literatura: po roce 1990
Synchronní mluvené korpusy název
velikost
popis
ORAL2006
1 mil.
korpus neformální mluvené češtiny
ORAL2008
1 mil.
sociolingvisticky vyvážený korpus neformální mluvené češtiny
referenční korpusy – po zveřejnění se nemění neformální situace – konverzace v rodině nebo s přáteli není lemmatizace, ani značkování
plánovaný ORAL2013:
zatím nespolehlivé – dialektismy a hovorové výrazy data sbírána z celé republiky (nejen z Čech) transkripce zarovnána se zvukovou stopou
plánovaný ORAL – protějšek SYNu, nereferenční, lemmatizovaný a značkovaný
Diachronní korpus název
velikost
popis
DIAKORP
2 mil.
korpus mapující sedm století vývoje češtiny (14.–20. století)
nereferenční korpus transkripce, nikoli transliterace plánovaná lemmatizace a značkování
především 19. století hyper-lemma: způsob, jak vyhledat všechny pravopisné varianty jednoho lemmatu
Paralelní korpus název
velikost
popis
InterCorp
v současnosti 542 mil. (92 mil. beletrie, zbytek kolekce dat)
paralelní korpus zahrnující 27 evropských jazyků
ve spolupráci s dalšími ústavy a univerzitami stále roste zarovnání na úrovni vět lemmatizace a značkování u těch jazyků, kde je k dispozici čeština jako pivot
Vyhledávací rozhraní No Sketch Engine
Korpus SYN
Korpus Oral
Nové korpusové nástroje
SyD: webový nástroj pro průzkum variant synchronní i diachronní perspektiva využívá korpusů SYN2010, ORAL2008 a DIAKORP živé vizualizace a uživatelsky příjemné prostředí bez registrace na syd.korpus.cz!
Morfio: nástroj pro studium slovotvorby v češtině vyhledává v korpusu podobně utvořená slova podle zadaného vzoru (sufixu či prefixu), umí je i porovnat
Keywords:
dokáže v textu najít klíčová slova a porovnat je s ref. textem