Výsledky dosažené v roce 2007 Řešitelské pracoviště MFF UK Podrobně jsou výsledky projektu dokumentovány na stránce http://ufal.mff.cuni.cz/rest. Stěžejním výstupem projektu bylo vydání monografie Průvodce Českým akademickým korpusem verze 1.0 doplněné CD-ROMem. V červnu hostil Ústav formální a aplikované lingvistiky MFF UK prestižní konferenci počítačové lingvistiky, a sice Association of Computational Linguistics Conference. Počet účastníků konference – 1 100 – se stal rekordním v celé historii konferencí zastřešovaných organizací ACL. Všichni členové řešitelského týmu se podíleli na organizaci této konference a zároveň zajišťovali publicitu Českému akademickému korpusu 1.0. Kanál ČT 24 České televize natočil během konference několik rozhovorů se členy pořadatelského ústavu. Mezi tázanými byl i Kiril Ribarov – viz nahrávku http://lectures.ms.mff.cuni.cz/video/recordshow/index/25/66. Český akademický korpus • Byla vydána první verze Českého akademického korpusu (ČAK 1.0) v nakladatelství Karolinum (ISBN: 978-80-246-1315-4) – viz (Vidová Hladká, Hajič, Hana, Hlaváčová, Mírovský, Votrubec, 2007), http://ufal.mff.cuni.cz/rest/CAC/cac_10.html, náklad 150ks • Byla zahájena práce na druhé verzi ČAK. Pokračovalo se v syntaktických anotacích. Bohužel se nepodařilo získat potřebný počet anotátorů, čímž se anotování protáhlo do roku 2008. • Byla zahájena příprava CD-ROM ČAK 2.0. Podobně jako CD-ROM ČAK 1.0, bude i „druhé“ CD obsahovat složku datovou – ČAK 2.0 – a složku nástrojů. Budeme distribuovat aktuální verze nástrojů z předchozího CD a přidáme i některé další nástroje. Začleníme bonusové materiály – elektronickou cvičebnici STYX a modul hlasového ovládání editoru TrEd TrEdVoice. Začleníme demosnímky k nástrojům s grafickým uživatelským rozhraním. Průvodce ČAK 2.0 bude procházet CD jak česky, tak i anglicky. • ČAK 1.0 byl použit jako hlavní zdroj dat pro zápočtové příklady zadané na přednášce Úvod do strojového učení (v počítačové lingvistice) konané v ZS 2006/07 na MFF UK (přednášejí Hladká, Ribarov). Řešení zápočtových příkladů poskytlo spoustu cenných komentářů k anotacím ČAK 1.0. Nástroj pro lexikální anotaci LAW V průběhu celého roku se pracovalo na zapojení morfologického editoru SLED a morfologického analyzátoru (viz níže) do editoru LAW. Modifikace morfologického analyzátoru Původní modifikace morfologického analyzátoru založená na konečných automatech byla dokončena v roce 2006. Nicméně modifikace se nestala součástí CDROM ČAK 1.0, protože potřeboval ke své práci neúměrně mnoho paměti, čímž se stal pro běžné použití nepoužitelný. Na odstranění zásadního nedostatku se pracovalo v roce 2007 a analyzátor bude součastí CD-ROM ČAK 2.0. Nové metody tagování Bylo provedeno mnoho experimentů s kombinacemi různých taggerů a pravidel, z čehož vzešel zatím nejlepší výsledek (96,1 % na testovacích datech). Dále započala práce na "unsupervised" metodách značkování a pokusy s využitím čistě statistické klasifikace slov na základě jejich vzájemné informace. V prosinci byl oficiálně zveřejněn český morfologický tagger Morče verze 1.0 (http://ufal.mff.cuni.cz/morce) s úspěšností 95,5 % (případně 95,8% vývojová verze pro registrované). Videonahrávky Byly pořízeny záznamy z téměř všech přednášek konaných v rámci Semináře z formální lingvistiky pořádaného ÚFAL MFF UK. Každá nahrávka je k dispozici v několika formátech: Flash Video – lze přehrávat on-line; H.264 MP4 – kvalitnější on-line video, zatím jsme jedni z mála, kdo tento formát využívá; Xvid – video ke stažení ve vyšší a nižší kvalitě; MP3 – pouze audio; PDF – poskytne-li přednášející svoji prezentaci. Byly zcela přepracovány webové stránky (http://lectures.ms.mff.cuni.cz) obsahující veškerý video materiál.
Publikace 1. Bauman Syd, Ribarov Kiril: Certain Aspects of Corpus Annotation Encoded using TEI P5, Springer, 2007. 2. Hajičová Eva, Cuřín Jan, Hajič Jan, Kučera Ondřej, Vidová-Hladká Barbora: Jazyk a umělá inteligence: kudy a kam?, Academia, 2007. 3. Hana Jirka: Lexical Annotation Workbench (LAW), Version 0.7.3, [http://www.ling.ohiostate.edu/~hana/law.html],Univerzita Karlova, 2007. 4. Hlaváčová Jaroslava. Korpusové chyby. In Gramatika a korpus / Grammar & Corpora 2005. Prague, Czech Republic: ÚJČ AV ČR, 2007, pp. 77-86. 5. Hlaváčová Jaroslava. Pravopisné varianty a morfologická anotace korpusů. In Gramatika a korpus / Grammar & Corpora 2007. Prague, Czech Republic: Academia, 2007. 6. Mírovský Jiří, Panevová Jarmila. Learning to Search in Prague Dependency Treebank. In Gramatika a korpus / Grammar & Corpora 2007. Prague, Czech Republic: Academia, 2007. 7. Ribarov Kiril. Connected OCS Processing - Core Elements., Scripta & e-Scripta, 2007, 5. 8. Smrž Otakar. Demo Proposal: Extensible Integrated Treebank Annotation Environment. In Proceedings of the 2nd Workshop on Computational Approaches to Arabic Script-based Languages. Stanford, California, USA: Linguistic Institute, 2007, pp. 152-155. 9. Smrž Otakar: ElixirFM, [http://sourceforge.net/projects/elixir-fm/], SourceForge.net, 2007. 10. Smrž Otakar. ElixirFM -- Implementation of Functional Arabic Morphology. In ACL 2007 Proceedings of the Workshop on Computational Approaches to Semitic Languages: Common Issues and Resources. Prague, Czech Republic: ACL, 2007, pp. 1-8. 11. Smrž Otakar. Functional Arabic Morphology. Formal System and Implementation.Ph.D. thesis., 2007, 104. 12. Smrž Otakar. Functional Arabic Morphology: Dissertation Summary., Prague Bulletin of Mathematical Linguistics, 2007, pp. 5-30. 13. Smrž Otakar, Hajič Jan: The Other Arabic Treebank: Prague Dependencies and Functions, CSLI Publications, 2007. 14. Vidová-Hladká Barbora, Hajič Jan, Hana Jiří, Hlaváčová Jaroslava, Mírovský Jiří, Votrubec Jan Czech Academic Corpus 1.0 Guide. Karolinum - Charles University Press, 2007. [http://ufal.mff.cuni.cz/rest/CAC/cac_10.html] 15. Vidová-Hladká Barbora, Hana Jiří, Hajič Jan, Hlaváčová Jaroslava, Mírovský Jiří, Votrubec Jan: Czech Academic Corpus 1.0, Karolinum - Charles University Press, 2007.
16. Vidová Hladká Barbora, Keprt Michal. Videonahrávky [http://lectures.ms.mff.cuni.cz/video/categoryshow/index/6]
přednášek.
2007.
Spoluřešitelské pracoviště ÚJČ AV ČR Všech dílčích cílů bylo dosaženo; zejména bylo otevřeno webové zpřístupnění jednak společné prezentace elektronizovaného Příručního slovníku jazyka českého (PSJČ) a rozsáhlého lexikálního archivu, jednak elektronické verze Jungmannova slovníku; proti předpokladu navíc bylo dokončeno skenování mikrofilmových kopií historických českých rukopisů, zahájeno skenování historických a již nedostupných ročníků časopisu Naše řeč a týmově bylo posíleno lemmatizování lexikálního archivu, jehož prezentaci již zajišťuje jiný projekt ÚJČ. Dosažené výsledky podle stupně důležitosti 1. PSJČ (Příruční slovník jazyka českého): dokončeny revize vnitřní konzistence, aplikovány systematické logické revize pro digitální verzi lexikálního archivu (http://bara.ujc.cas.cz/psjc) 2. Jungmannův slovník (Slownjk česko-německý Josefa Jungmanna): připravena první uživatelská verze prohlížení podle hesel a webový přístup (http://www.slownjk.cz) dokončena technická (obrazová) digitalizace autografu (rukopisu) zahájena technická (obrazová) digitalizace unikátního archivního tisku s autorovými poznámkami 3. Kottův slovník (Česko-německý slovník Františka Štěpána Kotta): k revidované elektronické verzi vytvořena databáze hesel a vyhledávací programy, dokončena uživatelská verze slovníku pro budoucí umístění na webu. 4. Trávníčkův slovník (Slovník jazyka českého Františka Trávníčka) dokončena uživatelská verze slovníku pro budoucí umístění na webu. 5. Frekvenční slovník 1961 (Frekvence slov, slovních druhů a tvarů v českém jazyce): provedena technická (obrazová) digitalizace. 6. Slovesa pro praxi: provedena kompletní digitalizace tištěného textu knižního vydání. 7. Naše řeč: zahájen projekt postupné digitalizace nejstarších ročníků časopisu. 8. České morfémy: zahájeny práce na databázi českých morfémů. 9. Slovní sítě: zahájeny práce na vytvoření databáze lingvistických informačních zdrojů včetně zobrazení hierarchických vztahů mezi lexikálními jednotkami pomocí síťových grafů. Detailní koordinace etap řešení projektu probíhala v souladu s harmonogramem v návrhu projektu, drobnější časové přesuny byly řešeny operativně. Publikované články v zahraničí J. Králík: Quantitative Linguistics within Czech Contexts. Exact Methods in the Study of Language and Text, Eds: R. Köhler, P. Grzybek, Quantitative Linguistics 62, Dedicated to Professor Gabriel Altmann on the occasion of his 75th birthday, Mouton de Gruyter Berlin – New York 2007, QL 62, ISBN 978-3-11-019354-1, ISSN 0179-3616, p. 343-351 J. Králík – L. Uhlířová: The Czech Academic Corpus (CAC), its history and presence. Journal of Quantitative Linguistics 14, Taylor & Francis 2007, ISSN 0929-6174, č. 2-3, s. 265-285 J. Králík: Contemplations on Corpus Infinity. 5th Trier Symposium on Quantitative Linguistics – Abstracts, Universität Trier 2007, p. 9 A. Rangelova – J. Králík: Wider Framework of the Research Plan Creation of a Lexical Database of the Czech Language of the Beginning of the 21st Century. In: Computer Treatment of Slavic and East European Languages, Fourth International Seminar Proceedings, Slovak National Corpus, Ľ. Štúr Institute of Linguistica, Slovak Academy of Science, eds.: J. Levická – R. Garabík, Bratislava 2007, ISBN 978-80-87139-05-9, s. 209-217 Přednášky a prezentace v zahraničí A. Rangelova: Wider Framework of the Research Plan Creation of a Lexical Database of the Czech Language of the Beginning of the 21st Century. Fourth International Seminar Slovanské a východoeurópske jazyky v počítačovom spracovaní, Bratislava 25-27 October 2007
J. Králík: Contemplations of Corpus Infinity. 5th Trier Symposium on Quantitative Linguistics, Trier Dec 6-8, 2007 Přednášky v tuzemsku Na tuzemské mezinárodní konferenci Gramatika a korpus byla prezentována přednáška a připraven článek k publikaci: přednáška J. Klímová: Slovní sítě. 2. Mezinárodní konference Gramatika a korpus 2007, 25.-27. září 2007, Liblice u Prahy publikace J. Klímová: Slovní sítě. 2. Mezinárodní konference Gramatika a korpus 2007 – anotace příspěvků, ÚJČ AV ČR, ISBN 8086496-35-X; plná verze v tisku 2nd International Konference Grammar & Corpora 2007 – Abstracts
Návrh postupu prací na rok 2008 Řešitelské pracoviště MFF UK Český akademický korpus • vydání CD-ROM Český akademický korpus 2.0. CD-ROM vyjde u amerického vydavatelství Linguistic Data Consortium, s kterým máme již uzavřenou předběžnou smlouvu. • automatická klasifikace detekovaných chybějících slov v ČAK 2.0 s výhledem na přičlenění ČAK k PDT • implementace skriptu tool_chain pro tokenizaci a morfologickou analýzu a tagování a parsování coby webové aplikace Nástroj pro lexikální anotaci • zapracování slovníku SLED a morfologického analyzátoru Modifikace morfologického analyzátoru • dokončení vývoje morfologického analyzátoru včetně guessru • ladění SLED dle zpětné vazby od uživatelů Nové metody tagování • modifikace perceptronového taggeru na prosodický tagger pro aplikace TTS • kombinace perceptronového modelu s ručně navrženými pravidly Videonahrávky • pokračování v nahrávánít Alternativní způsob získávání anotovaných dat • Pilotní projekt v získávání anotovaných dat prostřednictvím webových her, při kterém využijeme potenciálu internetových uživatelů, kteří se chtějí převážně bavit.
Spoluřešitelské pracoviště ÚJČ AV ČR V duchu operativní úpravy původního harmonogramu, podle kterého projekt v roce 2008 končí, se předpokládá: a/ dokončení a uzavření prací na datových zdrojích (zejm. elektronické verze slovníků a speciální databáze slovních sítí a morfémů) b/ webová prezentace dokončených prací (nástroje k prezentaci dat sub a/) c/ dokončení pilotní podoby dílčích projektů Naše řeč (postupná digitalizace nejstarších ročníků časopisu), České morfémy (založení databáze českých morfémů) a Slovní sítě (založení databáze lingvistických informačních zdrojů včetně zobrazení hierarchických vztahů mezi lexikálními jednotkami pomocí síťových grafů). d/ plné převedení dlouhodobých prací (zejm. lemmatizace elektronické obrazové podoby lexikálního archivu) do rámce navazujících projektů