MASARYKOVA UNIVERZITA Filozofická fakulta Ústav českého jazyka Český jazyk se specializací počítačová lingvistika
Michaela Trněná Lingvistické aspekty otázek ve hře Česko Bakalářská diplomová práce
Vedoucí práce: Mgr. Marek Grác
Brno 2013
Prohlašuji, že jsem bakalářskou diplomovou práci vypracovala samostatně s využitím uvedených pramenů a literatury. ……………………………… Podpis autora práce
Na tomto místě bych ráda poděkovala vedoucímu mé bakalářské diplomové práce Mgr. Marku Grácovi za cenné připomínky a odborné rady, které přispěly k vypracování této práce.
Anotace Práce se zabývá problematikou vyhledávání dat na internetu. Její snahou je klasifikovat vyhledaná data a určit jaká je míra úspěšnosti při odpovídání na otázky. Pro tyto účely bylo nejdříve nutné klasifikovat lingvistické aspekty otázek, které vedou k úspěšnému výsledku. Důležitým aspektem kladného hodnocení byla relevantnost vrácených informací. Práce byla inspirována vědomostní deskovou hrou Česko, otázky a odpovědi, jež byla zdrojem testovacích otázek.
Abstract This thesis deals with the search for data on the Internet. Its aim is to classify the scanned data and determine what is the success rate in answering the questions. For this purpose, it was first necessary to classify linguistic aspects of questions that lead to a successful outcome. An important aspect of a positive evaluation was the relevance of the returned information. The work was inspired by the knowledge board game Česko, otázky a odpovědi, which has been a source of test questions. Klíčová slova Vědomostní desková hra Česko, Google, QA systémy, vyhledávání informací, zodpovídání otázek
Keywords Knowledge board game Česko, Google, QA systems, informational retrieval, question answering
Obsah 1.
Úvod .................................................................................................................................... 7
2.
Úvod do problematiky ...................................................................................................... 8
3.
2.1
PageRank ..................................................................................................................... 8
2.2
Korpusová data ............................................................................................................ 9
2.3
Vyhledávání informací .............................................................................................. 11
Question Answering systémy.......................................................................................... 12 3.1
3.1.1
Closed-domain QA systémy ............................................................................... 12
3.1.2
Open-domain QA systémy ................................................................................. 13
3.2
START Natural Language Question Answering System ................................... 14
3.2.2
Ask ...................................................................................................................... 15
3.2.3
Wolfram Alpha ................................................................................................... 16
6.
7.
Další zajímavé projekty ............................................................................................. 17
3.3.1
IBM Watson ....................................................................................................... 18
3.3.2
Apple Siri............................................................................................................ 19
Informační potřeba ......................................................................................................... 20 4.1
5.
Vybrané QA systémy ................................................................................................. 13
3.2.1
3.3
4.
Rozdělení QA systémů .............................................................................................. 12
F-skóre ....................................................................................................................... 21
Postupy při zpracování dotazů ...................................................................................... 22 5.1
Získávání dat ze zdrojů .............................................................................................. 22
5.2
Získávání odpovědi z textu ........................................................................................ 23
5.3
Analýza otázky .......................................................................................................... 24
Vědomostní hry ............................................................................................................... 25 6.1
Základní kritéria hry .................................................................................................. 25
6.2
Vědomostní desková hra Česko, otázky a odpovědi .................................................. 27
6.3
Další vědomostní hry ................................................................................................. 27
Zpracovaná data .............................................................................................................. 28 7.1
Určení typu odpovědi ................................................................................................. 28
7.2
okruh: HISTORIE ...................................................................................................... 29
7.3
okruh GEOGRAFIE .................................................................................................. 31
7.4
Problematika hledání odpovědí ................................................................................. 32
7.5
Zpracované otázky ..................................................................................................... 33
7.5.1
Výsledky hodnocení ........................................................................................... 34
7.5.2
Problémy při vyhledávání................................................................................... 35
8.
Závěr ................................................................................................................................. 36
9.
Přílohy .............................................................................................................................. 38 9.1
Příloha č. 1: Dostupné korpusy ČNK ........................................................................ 38
9.2
Příloha č. 2: Četnost používání jednotlivých vyhledávačů ........................................ 40
9.3
Příloha č. 3: Ukázka konverzace s Apple Siri............................................................ 41
9.4
Příloha č. 4 ................................................................................................................. 42 Pravidla vědomostní deskové hry Česko, otázky a odpovědi .................................... 42 Ukázka vědomostní deskové hry Česko, otázky a odpovědi ..................................... 45
9.5
Příloha č. 5: Klasifikace tázacích slov u jednotlivých okruhů ................................... 46
9.6
Příloha č. 6: Seznam zpracovaných otázek z okruhů historie a geografie ................. 48
9.7
Příloha č. 7: Tabulka hodnocení úspěšnosti ............................................................... 57
10. Bibliografie....................................................................................................................... 59 10.1 Tištěné zdroje ............................................................................................................. 59 10.2 Elektronické zdroje .................................................................................................... 59 10.3 Použité nástroje .......................................................................................................... 63
1. Úvod Současná společnost je stále víc závislá na časově a prostorově nedeterminovaném přístupu k informacím. Současné počítačové technologie jako počítače, tablety nebo chytré telefony jsou pro uživatele kanálem, kterým se může spojit s většinou vědomostního potenciálu lidstva. Informační prostor je dnes moderní obdobou tradičních nosičů informací, jako donedávna bývaly slovníky, učebnice apod. Informační prostor je přesycen daty, která nejsou nijak třízená, systematizovaná nebo indexovaná. Místo jednoho známého autora nebo kolektivu autorů se na vzniku současného globálního informačního prostoru podílí množství jedinců limitované v konečném důsledku pouze počtem obyvatel planety Země, kteří mají – nebo budou mít – přístup k internetu. Tento stav klade extrémní nároky na vyhledávací systémy. Jejich cílem je podat uživateli co nejrychleji relevantní odpověď na požadovaný dotaz. S rozrůstáním informační společnosti a zvyšujícím se počtem uživatelů (neboli potenciálních tazatelů) stoupají nároky na přizpůsobivost vyhledávacích systémů přirozenému jazyku, který tazatelé používají. Tato práce vyčleňuje z nekonečného množství dotazů, které mohou být vyhledávacím systémům položeny, malou část. Její ambicí je zpracovat lingvistické aspekty vědomostní deskové hry Česko, otázky a odpovědi (dále jen Česko) tak, aby mohly být dále použity pro další zkoumání v rámci oboru počítačové lingvistiky. Práce je rozdělena na teoretickou a praktickou část. Teoretická část uvádí do problematiky vyhledávání informací a vyhodnocování její úspěšnosti, dále klasifikuje jednotlivé systémy pro zodpovídání otázek a objasňuje principy některých existujících systémů. V další kapitole seznamuje s informační potřebou uživatele, následně vysvětluje postupy při zpracování dotazů, od získávání dat ze zdrojů až k extrakci odpovědi z textu. Teoretickou část práce uzavírá nahlédnutí do vědomostních her. Praktická část předzpracovává textová data z vybrané sady otázek k určení lingvistických aspektů (pro účely klasifikace typů otázek) a následné testování správnosti vyhledaných relevantních výsledků. Takto získaná data poskytují podklady k vyhodnocení úspěšnosti systému na základě testovacích otázek. Celá práce je pro názornou představu proložena obrazovou dokumentací. Součástí příloh jsou konkrétní věty, na kterých probíhal průzkum lingvistických aspektů.
7
K dosažení tohoto cíle je třeba nejdříve roztřídit otázky podle typu jejich odpovědí a ověřit jak na ně reaguje vyhledávač. Pro potřeby této práce byl zvolen vyhledávač Google. Tato volba byla podložena lepším rozhraním Google (v porovnání s v Česku nejpoužívanějším Seznamem) pro budoucí možnost tvorby aplikace, která by k němu přistupovala automaticky. Obecně vyhledávače dokážou vyhledat na základě dotazu nepřeberné množství informací, které odpověď na položený dotaz zahrnují, avšak uživatel si je sám musí přefiltrovat, tzn. odebrat irelevantní vrácené odkazy a vybrat fragmenty, které v daném případě poskytují odpověď na jeho dotaz. Cílem práce je stanovit na základě otázek ze hry Česko parametry dotazů, vedoucích k relevantní odpovědi v co nejkratším čase a při co nejmenším počtu dotazů. Závěrem jsou navrženy možnosti praktického využití této práce k dalšímu rozvoji v oblasti zodpovídání otázek.
„Posláním společnosti Google je uspořádat informace z celého světa tak, aby byly všeobecně přístupné a užitečné.“ Motto společnosti Google
2. Úvod do problematiky 2.1 PageRank Tato práce nemá přinést inovativní řešení problematiky vyhledávání odpovědí na otázky v přirozeném jazyce, nýbrž má objasnit nové výsledky v této oblasti, jelikož se kvalita výstupů za poslední dekádu proměnila. Důkazem této proměny je hodnocení důležitosti webových stránek, jinak nazývané také PageRank1 nebo Pageovo ohodnocení. Jedná se o algoritmus nejrozšířenějšího vyhledávače Google, který hodnotí stránky podle kvality číslem 0-10. Hodnota PageRank2 je tím vyšší, čím více jiných stránek na ni odkazuje. A čím vyšší má stránka PageRank, tím bude výše ve výsledcích vyhledávání, což usnadní a urychlí získání požadované odpovědi. 1
Autory algoritmu pro ohodnocení důležitosti webových stránek jsou Larry Page a Sergey Brin. Vyjádření Googlu uvádí, že název algoritmu byl pojmenován právě po Pageovi. 2 Hodnotu PageRank je možné zjistit pro kteroukoliv webovou stránku na http://pageranky.cz/.
8
„Pagerank je nástroj k analyzování algoritmu a číselného vyjádření kvality jakékoliv stránky na internetu, za účelem měření její relativní důležitosti.“ (PR) Algoritmus pracuje se strukturou hypertextových odkazů, jež si vzájemně „doporučují“ stránky. Nebere v úvahu pouze prostý počet odkazů, které na stránku vedou, ale také hodnocení odkazujících stránek. Pro výpočet PageRank R(a) stránky a platí vzorec:
kde
je množina všech stran, které odkazují na a,
je počet odkazů, které vedou z u (což
je v tomto případě webová stránka odkazující na stránku a), c je normalizující faktor pro zajištění konstantního součet všech hodnocení. (WPR).
2.2 Korpusová data Práci s textovými daty usnadňují korpusy, tedy soubory počítačově uložených textů, případně přepisů mluveného slova, jež primárně slouží právě k jazykovému výzkumu. Pomocí korpusů a dat v nich shromážděných můžeme pracovat s texty, resp. slovy a vyhledávat tak například jejich frekvenci, třídit je podle slovních druhů či abecedně. V roce 1994 byl založen Ústav českého národního korpusu na Filozofické fakultě Univerzity Karlovy v Praze (ÚČNK), který má na starosti budování a rozvoj Českého národního korpusu (ČNK). Tento akademický projekt je zaměřený především na texty psané češtiny, uchovává však i korpusy mluveného jazyka, což umožňuje mj. sledovat aktuální úzus národního jazyka. Velikost psaných i mluvených korpusů stále roste. Změny jsou závislé na typu zpracovávaných dat, např. korpus SYN, který spojuje všechny synchronní psané korpusy řady SYN3, obsahoval v roce 2010 1 300 milionů slov. Má však nereferenční povahu,
3
Do řady korpusu SYN patří korpus SYN2010 (žánrově vyvážený korpus s převažujícími texty z let 2005-2009, obsahuje 100 milionů slov), SYN2009PUB (korpus publicistických textů z let 1995-2007, obsahuje 700 milionů slov), SYN2006PUB (korpus publicistických textů z let 1989-2004, obsahuje 300 milionů slov), SYN2005
9
tzn. jeho obsah je průběžně vylepšován a rozšiřován, čímž se mění velikost. Všechny dostupné korpusy jsou součástí příloh, jako Příloha č. 1: Dostupné korpusy ČNK. Při studiu přirozeného jazyka se zohledňují následující disciplíny, které lze studovat samostatně nebo je lze zkombinovat do většího celku: lingvistika, psycholingvistika, filosofie a logika, počítačová lingvistika. Právě počítačová lingvistika usiluje o využití poznatků získaných v oblasti počítačové vědy (Computer Science), mj. v oblasti umělé inteligence (Artificial inteligence, AI). „Ve svých aplikacích směřovala matematická4 (počítačová) lingvistika k vytváření systémů strojového překladu, automatického ukládání a vyhledávání textových informací nebo k tvorbě dotazovacích systémů k různě strukturovaným databázím na základě použití přirozeného jazyka. Poznání vnitřní struktury těchto systémů je nezávislé na jejích uživatelích, a pokud systém poskytuje žádoucí výsledky, nemusí vnitřní struktura uživatele vůbec zajímat. Lingvistické a bohemistické výsledky dosažené teoretickými a komputačními lingvisty zůstávaly mnohdy nepovšimnuty a v lingvistice nevyužity se zjednodušeným odůvodněním, že přece směřují k počítačovým aplikacím, tj. že jsou formulovány pro počítače.“ (Panev). Tyto teoretické aspekty, jak poznamenala Jarmila Panevová, se od 90. let 20. století prudce změnily a se vznikem korpusové lingvistiky se začaly budovat obrovské elektronické textové korpusy, které umožnily zpracování přirozeného jazyka pro praktické využití. Korpus chápeme jako soubor elektronicky uložených textů či promluv, který primárně slouží k jazykovému výzkumu. Počítačové korpusy slouží nejen lingvistům využívajícím tato data, ale také studentům bohemistiky a jejich vyučujícím pro studium, popis a výuku současné češtiny. Důležitým požadavkem současné doby je, aby komunikace mezi člověkem a strojem fungovala srozumitelně i pro běžné uživatele, laiky. Rychlé a snadné vyhledávání informací na internetu je v současné době jedním z nejdůležitějších požadavků při práci s počítačem. Je proto nutné vytvářet nové a vylepšovat již stávající programové nástroje, které nám umožní s těmito daty pracovat co nejefektivněji a s minimálním zaškolením.
(žánrově vyvážený korpus, převažují texty z let 2000-2004, obsahuje 100 milionů slov), SYN2000 (žánrově vyvážený korpus, převažují texty z let 1990-1999, obsahuje 100 milionů slov). 4 Obor nazývaný matematická lingvistika se konstituoval v 50. letech 20. století.
10
Extrahování pravidel pro určení lingvistických aspektů při vyhledávání proběhlo na základě vzorku vědomostních otázek ze hry Česko. Navržený algoritmus má obsahovat modely a pravidla dostatečně obecná, aby je bylo možné aplikovat i na neznámé texty podobného charakteru.
2.3 Vyhledávání informací Velkou snahou ve vývoji systémů schopných vyhledat uživateli co nejpřesnější odpověď na zadaný dotaz, je přiblížit se přirozenému jazyku. Člověku je přirozený jazyk stále tou nejvíce bezprostřední formou komunikace, a to i přes to, že například počítačoví experti jsou schopni „číst a dorozumívat se“ (pouze) prostřednictvím formálního programovacího jazyka. Pro technicky nenadaného uživatele by bylo studium programovacího jazyka nejen velkou časovou přítěží ale také by vyžadovalo určité soustředění a proniknutí do této problematiky. Oblasti výzkumu vyhledávání informací se věnují systémy pro zodpovídání otázek, tzv. Question Answering systémy (QA). Tyto systémy automatického odpovídání na otázky umí z dokumentů extrahovat krátké pasáže či údaje/entity (jména, data, místa,…), které obsahují požadovanou odpověď. Dokumenty, z kterých se tato data čerpají, se získávají za pomoci IR technik (Information Retrieval5), tj. vyhledávání informací ve velkých objemech nestrukturovaných textových dat. Teorie IR zkoumá možnosti jak efektivně pracovat s velkými objemy většinou netextových dat, tj. jak data efektivně ukládat, katalogizovat, klasifikovat a jak v nich vyhledávat. (Svoboda, 2001). Systémy IR často využívají univerzity a veřejné knihovny, které tak zajišťují přístup ke knihám, časopisům a dalším dokumentům. V současnosti na vrcholu žebříčku využití IR stojí internetové vyhledávače. Důležitou roli systémy IR vykonávají v oblasti prevence a potírání organizované trestné činnosti, využívá jich např. Europol, jež funguje na principu mezinárodní strategické spolupráce. (EP).
5
Pojem Information Retrieval zavedl Calvin Mooers v roce 1950, tento termín se používá dodnes.
11
3. Question Answering systémy Dotazovací systémy jsou v současnosti hojně využívaným a oblíbeným nástrojem pro vyhledávání informací. Je to snadný způsob, jak se rychle a jednoduše dozvědět odpověď na svůj dotaz. Současným trendem je přiblížit ovládání ve vyhledávacích systémech i lidem s minimálními znalostmi práce s počítačem, aby byli schopni instinktivně tyto nástroje využívat. Získávání informací je nedílnou součástí každodenního života a je třeba umožnit každému se k nim dostat. Široká škála znalostí a údajů dohledatelných na internetu, odkazuje veřejnost právě sem, do internetových vyhledávačů. Tyto aspekty byly důležitým požadavkem pro vznik systémů pro zodpovídání otázek v přirozeném jazyce (Question Answering system, QA systém). Dotazovací a QA systémy pracují na podobném principu. QA systémy se však liší tím, že na konkrétní otázku v přirozeném jazyce nebo heslovitém tvaru, vrátí větu, obrázek nebo popis, který co nejlépe vystihuje odpověď. Tyto systémy pracují na základě databází, z jejichž dat čerpají. Teorie zpracování přirozeného jazyka v minulosti vedla a stále vede ke vzniku nových systémů pro zodpovídání otázek. Základním principem je rozpoznání potřebných dat, na jejichž základě dodá relevantní odpověď. Ta by měla být vrácena v co nejkratším čase a měla by obsahovat požadovanou informaci.
3.1 Rozdělení QA systémů V současné době existuje celá řada QA systémů fungujících na různých principech. Následující rozdělení a stručný popis několika nejlépe hodnocených systémů6 objasňuje jejich práci. 3.1.1 Closed-domain QA systémy Tyto systémy pracují s otázkami v rámci konkrétní domény, tj. omezené skupiny dat (např. lékařství, automobilový průmysl, …). Podrobné zpracování dané oblasti je důležitým 6
Hodnocení dle oficiálních internetových stránek TRECu (Text REtrieval Conference) provádějící výzkumy v oblasti zpracování textových informací. Dostupné z http://trec.nist.gov/.
12
aspektem při jejich tvorbě. Skupiny dat jsou nejčastěji uloženy ve formátu XML, případně jiném, který umožňuje co nejefektivnější přístup k datům. 3.1.2 Open-domain QA systémy Tyto systémy nejsou nijak tematicky omezeny, na rozdíl od Closed-domain QA systémů. Pracují s rozsáhlými korpusy textů a velkým množstvím dat na internetu. Jelikož jsou data většinou nestrukturovaná, musí tyto systémy vhodně implementovat algoritmy vyhledání informace (Information Retrieval, IR) a extrakce informace (Information Extraction, IE). 3.1.2.1 Teorie vyhledávání informací Teorie IR se zabývá způsoby manipulace s velkými objemy nestrukturovaných dat, resp. efektivním ukládáním dat, katalogizací, klasifikací a efektivním vyhledáváním. „Úkolem IR je tedy rychlé nalezení dokumentů s požadovanou informací. Nezabývá se však jejím dalším zpracováním, na výstup dává nalezený dokument či jeho fragment. Na internetu existuje mnoho aplikací, které vybírají dle zadaného seznamu klíčových slov seznam relevantních dokumentů.“ (Polák, 2006, s. 3). Zástupci těchto aplikací jsou internetové textové vyhledávače. Jedny z nejpoužívanějších v České republice jsou Seznam, Google a Bing. Přehled používání jednotlivých vyhledávačů je uveden v závěru práce, jako Příloha č. 2: Četnost používání jednotlivých vyhledávačů. 3.1.2.2 Extrakce informací Techniky IE slouží k detailnější analýze dokumentů, jsou tedy jakousi nadstavbou nad oblastí IR. Dokážou přesněji identifikovat fragmenty dokumentů, které jsou relevantní odpovědí na uživatelův dotaz. Jejich úkolem je rozpoznat jednotlivé třídy a podtřídy slov v textu.
3.2 Vybrané QA systémy V současnosti je na webu k dispozici několik systémů pro zodpovídání otázek (např. AnswerBus Question Answering System, askEd!, IONAUT, LAMP, Wondir. 13
V následující části budou představeny tři nejznámější běžně používané QA systémy: START, Ask a Wolfram Alpha. Tyto systémy jsou založeny na znalostní bázi, tzn. pracují s nějakou strukturovanou databází znalostí. Systém provede syntaktickou a sémantickou analýzu vstupního dotazu, převede ji do logické formule, kterou následně porovnává s konkrétní databází znalostí. Tvorba takovéto databáze se provádí ručně na několika příkladech, jejichž algoritmus zpracování se pak automaticky převádí na další prvky (např. ručně označkujeme informace o jednom zvířeti, tyto informace pak automaticky získají i ostatní druhy, které můžeme označit jako zvířata). Výstup předpokládá kvalitní bázi znalostí, jež je závislá na odborných znalostech editorů. (Svoboda, 2001, s. 8). Dále budou představeny dva populární projekty IBM Watson a Apple Siri, které představují obrovský přínos v současné komunikaci. 3.2.1 START Natural Language Question Answering System START7 (SynTactic Analysis using Reversible Transformations) je systém vyvinutý Borisem Katzem v Technickém institutu v Massachusetts v laboratoři umělé inteligence. (ST). Systém byl poprvé spuštěn v roce 1993 a od té doby se stále vyvíjí. Jeho data však pracují pouze s angličtinou. V současnosti je zaměřen na otázky týkající se geografie („How do I get from New York to Boston?“), umění a zábavy („Who wrote the music to Star Wars?“), vědy a přírody („How far is the Earth from Mars?“), historie a kultury („When was George Washington born?“) a další otázky z jiných odvětví („What is California´s state tree?“). START je příkladem Closed-domain QA systému. Dokáže zpracovávat nejen textové informace, ale také obrázky, diagramy, webové stránky, audio a video záznamy. Jeho databáze jsou ručně anotované, což zkvalitňuje práci s nimi. Jeho snahou je s uživatelem komunikovat v přirozeném jazyce, tzn. dokáže odpovídat celými větami (obr. 1). V případě, že dotazované údaje nemá v databázi, jeho reakce zní například „Sorry, I just don´t know who Pavel Novák is.“ Systém však stále neumí najít konkrétní odpovědět např. na otázku „What is the second largest city in the Czech Republic?“. Jeho databáze zná odpověď pouze na největší město České republiky. Uživatel si odpověď z dodatečného textu sice vyhledá, ale jen díky dalším informacím, které START k výrazu „Czech Republic“ dohledal (viz „Other large cities“ na obr. 2). 7
Dostupný z http://start.csail.mit.edu/.
14
Obr. 1
Obr. 2 3.2.2 Ask Systém Ask8 (dříve Ask Jeeves) je komerční a využívá informační zdroje na internetu, které odpovídají předem definovaným typům otázek s variabilním objektem, na které umí systém odpovědět. Dotazovacím jazykem je pouze angličtina. Uživatelův dotaz je nejdříve porovnán s těmito typy a poté vybere několik nejpodobnějších položené otázce, které nabídne uživateli. Ten si následně zvolí, kterou otázku chce zodpovědět. Databáze Ask zahrnuje široké 8
Dostupné z http://www.ask.com/.
15
spektrum otázek z různých oborů, např. auta, lodě, kola, design a fotografie, jídlo a pití, vzdělávání, věda, nakupování, sport a rekreace a další. Pracuje také s diskuzemi na fórech (obr. 3). Otázky uvedené v databázi většinou dostanou relevantní odpověď, v případě složitějších nebo neobvyklých otázek však mívají podobné systémy problémy.
Obr. 3: Diskuzní fórum systému Ask. 3.2.3 Wolfram Alpha Wolfram Alpha9 je webová služba vyvinutá Stephenem Wolframem a firmou Wolfram Research, která pracuje s vlastní obsáhlou databází a vlastní analýzou dotazů. Nabízí systematické znalosti z oblasti vědy, matematiky, kultury, zeměpisu, astronomie, medicíny a dalších. Je to služba, která se snaží vracet přímo kompletní informace na zadaný dotaz v přirozeném jazyce (anglickém). Své odpovědi dokáže podávat i ve formě strukturované tabulky daných souvislostí. Dokáže také spočítat různě složité matematické příklady a zároveň navrhne postup jejich řešení. Zajímavé znalosti poskytuje v oblasti meteorologie, kde si uživatel může vyhledat informace o tom, jaké bylo počasí např. 3. 6. 1988 v Brně (obr. 4).
9
Dostupné z http://www.wolframalpha.com/.
16
Služba však stále nedokáže zodpovědět veškeré dotazy, ale pouze ty, pro které má informace už zpracované.
Obr. 4: Informace o počasí na Wolfram Alpha.
3.3 Další zajímavé projekty Následující projekty našly svou působnost nejen v oblasti technického vývoje, ale také v každodenním životě mnoha osob – uživatelů mobilních zařízení, jejichž účelem je pomáhat uživatelům v každodenním životě s praktickými informacemi a zároveň jsou do jisté míry „zábavnou atrakcí“. Těmito projekty jsou IBM Watson a Apple Siri.
17
3.3.1 IBM Watson Watson je počítačový systém vyvinutý v IBM, jež využívá tzv. DeepQA technologii. Svůj název si nese podle prvního ředitele IBM Thomase J. Watsona. Cílem tohoto projektu bylo vytvořit počítačový systém, který dokáže zvítězit v televizní znalostní soutěži Jeopardy!, což se 16. 2. 2011 také podařilo. Watson vychází z QA systému PIQUANT10. Důležitým aspektem, aby Watson uspěl, bylo vyvinout systém, který pochopí složité otázky a dokáže na ně nalézt přesné odpovědi. Dalším nezanedbatelným požadavkem byla rychlost vyhledání odpovědi, a to od 1 do 6 sekund. Watsonovými soupeři však nebyly stroje, ale lidští protihráči, a rovnou dva nejlepší v historii této hry. Prvním soupeřem byl Brad Rutter, který v této soutěži vyhrál nejvíce peněz a Ken Jennings, který drží nejdelší sérii vítězství v této soutěži, a to 74 výher po sobě. Americký televizní kvíz Jeopardy! je srovnatelný s českou soutěží Riskuj. Funguje na principu
pokládání
otázek
moderátorem
a
následném
odpovídání
soutěžících,
a to v co nejkratším čase. Poté co moderátor Alex Trebek přečte otázku, rozsvítí se světlo a soutěžící mají možnost se přihlásit. První kdo stiskne tlačítko, odpovídá. Watson tuto otázku obdržel elektronicky v okamžiku, kdy byla zviditelněna lidským hráčům. Jeho speciální elektronický obvod dostával signál, že pokud chce, může odpovídat. Systém neměl přístup na internet a musel se také vypořádat se způsobem pokládání otázek, tzn. analyzovat sarkasmus ve větě apod. Pokud vyhodnotil, že míra důvěryhodnosti odpovědi, kterou dostal, je dostatečná a stihl se přihlásit včas, odpověď za něj pronesl syntetizovaný hlas. Důležitým aspektem je pro Watsona také výběr otázek. Proto je vybaven několika algoritmy, které mohou simulovat výpočet pro nejvhodnější sázku v reálném čase nebo díky mnoha tréninkovým kolům testování navrhnou herní strategii. Díky těmto pokročilým matematickým modelům si Watson může zvolit otázku mnohdy lépe než člověk, který je vystaven stresu a díky nervozitě si není schopný vybrat pro něj „výhodnější“ otázku. Tímto způsobem se Watson probojoval k výhře ve výši jeden milion dolarů. (Wat). DeepQA technologie, jejíž struktura je zobrazena na obr. 5, je založena na analýze dat. Současně využívá více než stovku různých metod k analýze přirozeného jazyka, vytváření hypotéz a následné hledání důkazů pro jejich potvrzení či vyvrácení. Tyto metody navzájem kombinuje a snaží se vyhledat nejpřesnější výsledek. (Diit). 10
PIQUANT = Practical Intelligent Question Answering Technology.
18
Tuto technologii by do budoucna mohl využívat obor medicíny jako rychlou pomoc při určování diagnóz u pacientů, nebo jako databázi s lékařskými informacemi, které lékařům urychlí rozhodování jak pacienta léčit. Systém by tedy navrhl varianty, kterými lze nejefektivněji pacienta uzdravit, podložil by je relevantní literaturou a lékař by tuto diagnózu, pokud by byla správná, potvrdil. Stejně tak by tento systém mohl pomáhat k rychlému vyhledání informací v oblastech, které jsou podloženy velkým množstvím odborné literatury.
Obr. 5: Architektura DeepQA. Převzato (Ferr). 3.3.2 Apple Siri Siri je inteligentní osobní asistent a navigátor vyvinutý společností Siri, fungující jako aplikace pro Apple iOS. Společnost Siri, jež byla v dubnu 2010 koupena společností Apple, již dříve pracovala na projektech DARPA11 a dalších výzkumech rozpoznávání přirozeného jazyka. Přinesla tedy do této oblasti komunikace užitečná data. Nešlo pouze o samotné rozpoznávání hlasu, ale především o zpracování významu a kombinování informačních zdrojů. Systém čerpá znalosti z databáze Wolfram Alpha, Wikipedie, využívá vyhledávače Google, Bing a Yahoo!. K úspěšnému uvedení na trh došlo ke konci roku 2011. 11
DARPA (Defence Advanced Research Projects Agency) je agentura vedená pod americkým ministerstvem obrany. Je zodpovědná za vývoj nových vojenských technologií a podporuje výzkum v různých oborech technické oblasti (biologie, medicíny, informatiky, chemie, fyziky, matematiky,…). Finanční podporu čerpá z vládních zdrojů a snaží se tak podporovat univerzitní a firemní vývojové týmy.
19
Aplikace dokáže rozpoznat mluvený přirozený jazyk uživatele a dokáže s ním komunikovat. Je schopná vyhledat nejbližší restauraci a zároveň tam provést rezervaci, informovat o počasí, zprávách, připomenout události, a to všechno formou konverzace, jak je zobrazeno v závěru práce, jako Příloha č. 3: Ukázka konverzace s Apple Siri. Oficiální jazyky, které v současnosti dokáže rozpoznat, jsou angličtina, němčina, francouzština, japonština, italština (Itálie, Švýcarsko), španělština (Mexiko, Španělsko), čínština (Čína, Taiwan), korejština. Předpoklady k rozpoznání dalších jazyků jsou více než očekávané. Její fungování je však omezeno pouze na Spojené státy a Kanadu. (App).
4. Informační potřeba Cílem vyhledávání je uspokojit informační potřebu uživatele relevantními daty. Výsledkem hledání je množina informací, které hledáme. Záleží na konkrétním systému, jakou informaci nám vrátí (text, tabulka, obrázek, graf,…). Následně provede setřídění odpovědí podle relevance a poskytne je uživateli. Pojem relevance však může u každého jedince znamenat jiný výsledek. Aby byl systém hodnocen jako úspěšný, neměl by vynechat při vyhledávání žádný relevantní dokument, který je v systému uložen. Pro měření efektivity systému IR se používá dvou koeficientů, a to koeficient úplnosti R (Recall), definovaný jako č č
á
ý
í
š
í
ů é
ů
a koeficient přesnosti P (Precision), definovaný jako č
á č
ý š
í á
ý
ů ů
Ideálním výsledkem by byly maximální hodnoty obou koeficientů blížící se hodnotě 1. V praxi však křivka takovéto hodnoty dosáhne jen málokdy. Typickým příkladem je graf č. 1, kde jednotlivé body na křivce odpovídají různě nastaveným hranicím počtu vrácených dokumentů, n je počet vrácených dokumentů a C je celkový počet dokumentů. Pokud 20
se n blíží nízkým hodnotám a nule, zvyšuje se pravděpodobnost vysoké relevance získaných dokumentů na úkor podílu opomenutých relevantních dokumentů. (Svoboda, 2001).
Graf č. 1: Typická závislost koeficientu úplnosti a přesnosti. Upraveno z (Svoboda, 2001).
4.1 F-skóre F-skóre se používá se v oblasti získávání informací pro měření kvality vyhledávání, kategorizaci dokumentů a klasifikaci dotazů. Uplatnění nalézá také ve strojovém učení. K jeho vypočtení je potřeba znát koeficienty přesnosti P a úplnosti R.
F-skóre je určeno v rozmezí hodnot 0 až 1. V ideálním výsledku vyhledávání by došlo ke střetnutí v hodnotách 1, kdy by byla přesnost i úplnost na nejvyšší úrovni. V této hodnotě je dosaženo nejlepšího výsledku a znamenalo by to, že byly vyhledány všechny relevantní dokumenty. Tento ideální poměr zobrazuje graf č. 2.
21
Graf č. 2: Ideální výsledek měření kvality vyhledávání. Upraveno z (DIS).
5. Postupy při zpracování dotazů 5.1 Získávání dat ze zdrojů Zdrojem pro vyhledávání textových dat k této práci byl internetový vyhledávač Google12, jež hledal odpovědi na zadané otázky v přirozeném jazyce. Pro získání zdrojů byla do vyhledávacího okna zadána klíčová slova nebo i celé věty, jež by mohly nabídnout správnou odpověď. Získání obsahu je kombinací manuálního zadání textu a automatického vyhledání zvoleným vyhledávačem. Jedním z důležitých aspektů vyhledávání bylo extrahovat relevantní data, jež obsahovala požadovanou odpověď. K získání odpovědi je nutné mít nadefinovaný problém, neboli vědět, na co přesně se chceme zeptat. Dotazování probíhalo zadáváním klíčových slov13 extrahovaných z otázek. Nebylo tedy nutné využívat Booleovské operátory14 definující logické vztahy mezi jednotlivými slovy, abychom dosáhli přesného formulování rešeršního dotazu. Rešerši je možné definovat
12
Vyhledávač Google byl zvolen z důvodu obsáhlé databáze informací a vysoké četnosti používání při vyhledávání (v ČR i ve světě). 13 Pojmy charakterizující obsah informace v textu. 14 Mezi nejznámější Booleovské operátory patří AND, OR, NOT, XOR. Operátor AND zužuje dotaz (systém tedy hledá jen dokumenty obsahující současně všechna klíčová slova.) Operátor OR dotaz rozšiřuje (systém vyhledává dokumenty obsahující alespoň jedno z uvedených slov). Operátor NOT vylučuje nežádoucí dokumenty. Operátor XOR slouží jako vylučovací „nebo“, tzn. vyhledaný záznam musí obsahovat pouze jedno z uvedených slov. Složitější dotazy lze tvořit s různými operátory pomocí kulatých závorek. Pro přehlednost dotazu se doporučuje psát operátory kapitálkami.
22
jako „vyhledávání informací o určité problematice na základě konkrétního požadavku“. (WiRe). V této oblasti je klíčové slovo používáno ve smyslu vyhledávacího termínu nebo vyhledávacího výrazu. S rostoucím počtem internetových stránek a specifičností naší informační potřeby také vzrůstají nároky na vyhledávání.
5.2 Získávání odpovědi z textu Některé typy otázek, jejichž odpovědi obsahují specifickou frázi, jako např. vlastní jméno, přezdívku, datum, geografický název, událost, (číselný údaj) nebo ustálené slovní spojení, jsou vyhledatelné s velkou mírou úspěšnosti a vysokou hodnotou PageRank. Identifikace a vyhledání těchto frází není obtížné, jelikož na internetu existuje velké množství dat s texty, ve kterých je odpověď již formulována. QA systém při hledání specifických frází postupuje následovně (Jur, slide 31): 1. Vybere všechna „non-stop slova“15 v uvozovkách. 2. Vybere všechny jmenné fráze (vlastní jména, přezdívky či jména objektů). 3. Vybere všechna složená jména s jejich adjektivními modifikátory. 4. Vybere všechna ostatní složená jména. 5. Vybere všechna substantiva s jejich adjektivními modifikátory. 6. Vybere všechna ostatní substantiva. 7. Vybere všechna slovesa. 8. Vybere všechna adverbia. 9. Vybere všechna zbývající slova.
15
Stop slova jsou frekventovaná slova, která nenesou samy o sobě význam, nejčastěji to jsou zájmena, předložky, spojky, tvary slovesa být. Za „non-stop slova“ tedy považujme vše ostatní.
23
5.3 Analýza otázky Prvním krokem při zodpovídání otázek je její analýza a správné pochopení, na co se otázka ptá. V následujících krocích je popsán postup na konkrétním příkladu z praktické části práce: 1. Otázka zní: „Ve kterém roce byla svatořečena Anežka Česká?“. 2. Z otázky jsou patrné základní údaje: Ve kterém roce, Anežka Česká, svatořečena. Požadovaná odpověď musí obsahovat specifickou frázi, a to informaci o datu. 3. Internetový vyhledávač hledá zdroje dat podle zadaných slov „rok“, „svatořečení“ a „Anežka Česká“. (Viz Systém při hledání specifických frází.) 4. Z nalezených webových stránek jsou extrahovány vhodné zdroje dat obsahující hledané výrazy. 5. Specifická fráze (jedna nebo více) je nalezena a vyhledávač zobrazuje úsek textu, v kterém se vyskytuje. 6. Hodnota PageRank je vysoká a hledaná fráze/odpověď se zobrazí hned jako první vyhledaný zdroj (obr. 6). Postup je ekvivalentní i pro další typy otázek, jejichž odpovědi obsahují specifické fráze (jména, geografické názvy, data, události, číselné údaje, názvy organizací). (SST).
24
Obr. 6
Samotnému rozboru otázek předchází krátký úvod do vědomostních her s odkazem na úplná pravidla hry Česko.
6. Vědomostní hry 6.1 Základní kritéria hry Na otázku co je hra se rozchází názory mnoha odborníků v této oblasti. Jako názor, s kterým se ztotožňuji, a který nejlépe odpovídá definici hry pro potřeby této práce, jsem
25
zvolila definici Johana Huizingy16, nizozemského historika a teoretika kultury, jež se zabýval fenoménem hry. „Hra je dobrovolná činnost, která je vykonávaná uvnitř pevně stanovených časových a prostorových hranic, podle dobrovolně přijatých, ale bezpodmínečně závazných pravidel, která má svůj cíl v sobě samé a je doprovázena pocitem napětí a radosti a vědomím „jiného bytí“, než je „všední život“.“ (Huizinga, 2000, s . 44) V následujícím odstavci jsou uvedena základní kritéria hry podle Johana Huizingy, která hru obecně definují. Další jednotlivá kritéria se pak liší u her pro jednotlivce, dvojice či skupiny; deskové hry, didaktické hry, počítačové hry a další. Kritéria hry podle Johana Huizingy (HB): Hra je dobrovolná, nikdo nemůže účastníka nutit, aby si hrál. Hra je vystoupením z „obyčejného“ nebo „vlastního“ života do dočasné sféry aktivity, která je mimo proces uspokojování nezbytných potřeb jedince. Hra má prostorovou i časovou složitost. Hra začne a v určitém okamžiku skončí. Odehraje se. Hra vytváří vlastní oddělené, posvátné území, ve kterém platí zvláštní, vlastní pravidla, dočasné světy uvnitř obyčejného světa, ve kterých probíhá nějaký v sobě uzavřený děj. Hra má možnost opakování. Hra má svůj bezpodmínečný řád – pravidla. Hra může obsahovat rytmus, harmonii (střídání, kontrast, variaci), napětí (nejistota, naděje). Autor dále uvádí, že čistá hra je základem a činitelem kultury. „Všechny velké původní činnosti lidského společenství jsou protkány hrou. Vezměme si řeč, ten první a nejvyšší nástroj, který si člověk vytváří, aby mohl sdělovat, učit, rozkazovat, řeč, jejímž prostřednictvím rozlišuje, určuje, zjišťuje, zkrátka pojmenovává.“ (Huizinga, 2000, s. 13). 16
Johan Huizinga, 7. 12. 1872 – 1. 2. 1945, nizozemský kulturní historik. Byl velmi činorodou kulturní osobností, od r. 1916 byl členem redakce De Gids a také např. členem Meziuniverzitní komise pro mezinárodní styky a později komise Společnosti národů pro duchovní spolupráci.
26
Všeobecně hra u dětí a adolescentů napomáhá rozvoji vnitřních vývojových předpokladů, měla by být výchovným a vzdělávacím prostředkem a zároveň má za úkol rozvíjet sociální roli v kolektivu. Měla by to být činnost, která se liší od práce a učení. Vědomostní hry však dokázaly spojit zábavu a vzdělávání v jednu činnost, a to jak pro děti tak dospělé osoby. Otázka věku není v této oblasti žádným omezením. Společenské hry jsou důležitým aspektem pro udržení sociálních vazeb v každém věku. Většina her má podobu sociální interakce s jasně formulovanými pravidly. Porušením pravidel hra končí. Nedostáváme nějaké sankce či tresty, ale jde o to, že hra se skládá z pravidel a jejich narušením nelze dál pokračovat. Když začínáme hru hrát, souhlasíme tím automaticky s jejími pravidly. V případě, že si hru sami vymyslíme, je nutné si dopředu pravidla určit a řídit se jimi.
6.2 Vědomostní desková hra Česko, otázky a odpovědi Pro úplnost a dobré porozumění smyslu hry, která motivovala cíl této práce, jsou pravidla a obrazová dokumentace vědomostní deskové hry Česko, otázky a odpovědi17uvedena v příloze č. 4, jako Pravidla vědomostní deskové hry Česko, otázky a odpovědi a Ukázka vědomostní deskové hry Česko, otázky a odpovědi.
6.3
Další vědomostní hry Většina vědomostních her čerpá ze základních znalostí člověka. To je také důvod proč
se může do těchto her zapojit každý. Hry tohoto typu jsou určené pro široké spektrum lidí, zároveň se jedná o vzdělávání populární a hravou formou. Zaměření vědomostních her je různé. V současnosti trh nabízí široké spektrum vědomostních her (založených na faktografických údajích). Například hra, z které čerpáme otázky pro tuto práci Česko, otázky a odpovědi dostala několik rozšíření, a to Česko, otázky 17
Pravidla pocházejí z tištěné podoby 6. vydání hry Česko.
27
a odpovědi – JUNIOR pro hráče od 10 let, Zlaté Česko, otázky a odpovědi – pokračování základní verze, Česko a Evropa - rozšíření, Česko sport - rozšíření, nebo základní verzi v cestovním balení. Dále stejný vydavatel přidal zábavnou hru pro fanoušky českého filmu Český film - otázky a odpovědi, dále Slovenský a český film, Česká hudba - otázky a odpovědi; Klasika – zábavná hra o vážné hudbě; USA, otázky a odpovědi; Evropa, otázky a odpovědi; Svět, otázky a odpovědi. Hry se zaměřují na různé oblasti znalostí, ale vždy dodržují stejný princip hry. Hráči odpovídají na otázky z 6 okruhů znalostí a pro jejich následnou kontrolu jsou odpovědi uvedeny na druhé straně soutěžní karty. Touto formou je velice dobře plněna edukační funkce hry. Struktura otázek u zmíněných her a postup jejich analýzy je totožný s postupem, který je uvedený v kapitole „Získávání odpovědi z textu“ na straně 23. Dochází k vyčlenění podstatných složek věty, které jsou potřebné k získání správné odpovědi.
7. Zpracovaná data 7.1 Určení typu odpovědi Při analýze otázky se klasifikuje druh otázky, resp. je třeba zjistit, na co se otázka ptá a jaký typ odpovědi je požadován. Tato klasifikace je prováděna na základě interogativních zájmen (kdo?, co?, jaký?, který?, čí?), zájmenných příslovcí tázacích (kde?), zájmenných příslovcí vztažných (proč?) a číslovkových zájmen (kolik?). Pro dotazované entity ze všech okruhů otázek, byly vytvořeny následující kategorie: osoba (vlastní jméno, přezdívka, přídomek) věc geografický název (město, místo, kraj, oblast,…) událost datum počet (množství, číslo,…) ostatní 28
Pro tuto práci bylo v první fázi klasifikováno všech 6 kategorií ze hry Česko (historie, kultura, příroda/technika/věda, geografie, sport a různé). Z každé kategorie bylo následně vybráno 100 otázek, které posloužily jako reprezentativní vzorek pro určení typů tázacích slov užitých v otázkách, což objasnilo, na jaké entity se otázky v různých okruzích ptají. Celkem bylo posouzeno 600 otázek. Podrobné zpracování otázek probíhalo na ručně vybraných větách z okruhů historie a geografie. Výběr probíhal pročítáním jednotlivých otázek a posuzováním náročnosti na úspěšnost internetového vyhledávání (viz následující důvody). Poměr tázacích slov v reprezentativním vzorku se přibližně shodoval s poměrem ve vybraných větách, a byl tak splněn základní předpoklad pro jejich následné zpracování. Okruhy historie a geografie byly pro práci vyhodnoceny jako nejvhodnější zdroje dat pro základní klasifikaci při zodpovídání otázek. Důvodem jsou otázky, které v daných dvou okruzích zjišťují snadno vyhledatelné entity, tzn. obsahují specifickou frázi, např. vlastní jméno, přezdívku, datum, geografický název, nebo ustálené slovní spojení. Jejich odpovědi jsou zpravidla jednoslovné či dvouslovné, což splňuje základní požadavek vyhledání konkrétní odpovědi. Dotazování na otázku „Proč“ by znamenalo vyhledání nejméně jedné věty, případně i více souvětí, z kterého by bylo dále potřeba extrahovat odpověď a přeformulovat ji do gramaticky správné věty – odpovědi, což v současnosti vyhledávač Google neumožňuje. Pro účely této práce byly zvoleny krátké a jednoznačné odpovědi. Konkrétní okruhy pracují s otázkami ze hry Česko. Rozdělení podle dotazované entity (uvádí všechny varianty tázacích slov v daném okruhu):
7.2 okruh: HISTORIE OSOBA Jak se jmenoval kejklíř krále Václava IV., kterého podle pověsti odnesl čert? Kterému panovníkovi (1306-1307) se přezdívalo "Král Kaše"? Jaký přídomek měl Boleslav I. (915-967 nebo 972)? Kdo byl československým prezidentem v době srpnových událostí v roce 1968? VĚC Která listina zaručovala českým zemím dědičný královský titul? 29
GEOGRAFICKÝ NÁZEV U kterého města se konala v prosinci 1805 bitva "tří císařů"? Kde zemřel T. G. Masaryk? UDÁLOST Pod jakým názvem vstoupil do dějin konflikt vyvolaný neshodami katolíků a protestantů, který probíhal v letech 1618-1648? DATUM Ve kterém roce byla svatořečena Anežka Česká? Kdy se uskutečnila bitva na Bílé hoře? POČET Kolik dětí měla Marie Terezie? OSTATNÍ Co znamená zkratka KAN? Proč se podle pověsti vydal kníže Bruncvík do světa?
Statistika okruhu HISTORIE Tázací slovo
Počet vět
Který
38
Jak
41
Co
7
Kdo
6
Kde
3
Kdy
1
Proč
2
Kolik
2
Celkem
100
Kdy 1%
Proč 2%
Kde 3%
Kolik 2%
Který 38%
Kdo 6% Co 7% Jak 41%
30
Obor historie zahrnuje otázky na entity ve všech kategoriích. Nejvíce otázek se dotazuje na osoby, resp. jména panovníků a významných osobností, následují dotazy na letopočty historických událostí, bitev apod.
7.3 okruh GEOGRAFIE GEOGRAFICKÝ NÁZEV Kde stojí hvězdárna M. R. Štefánika? Ve kterém kraji leží město Písek? Jak se jmenuje krajské město, kterému na horizontu dominuje sídliště Jižní svahy? Co je označováno jako Sudety? OSTATNÍ Které heslo má na sobě znak města Prahy? Co mají společného obce Štětí, Paskov, Větřní a Hostinné? Jak se nazývá zájmové sdružení, které bylo založeno v r. 1888 Vojtou Náprstkem a které po Čechách vytvořilo hustou síť turistických značek?
Statistika okruhu GEOGRAFIE
Tázací slovo
Počet vět
Který
67
Jak
18
Co
4
Kde
11
Celkem
100
Co 4%
Kde 11%
Jak 18% Který 67%
Tento okruh je zaměřen na otázky převážně geografické (96%). Zjišťují názvy měst, povodí, umístění významných českých staveb atd. (např. „Kde nalezneme druhý nejdelší kostel v ČR po Chrámu svatého Víta v Praze?“). Z celkového počtu 100 analyzovaných 31
otázek, jsou pouze 4 otázky (4%) z kategorie ostatní (např. „Jak se nazývá zájmové sdružení, které bylo založeno v r. 1888 Vojtou Náprstkem a které po Čechách vytvořilo hustou síť turistických značek?“). Zařazení do jiných kategorií zde nebylo uplatněno. Pro celkovou klasifikaci otázek ze hry Česko jsou grafy a souhrnné počty tázacích slov u ostatních okruhů (kultura, příroda/technika/věda, sport, různé) uvedené v závěru práce, jako Příloha č. 5: Klasifikace tázacích slov u jednotlivých okruhů.
7.4 Problematika hledání odpovědí Existuje široké spektrum otázek, z jejichž tvarů tázacích slov nelze vždy jednoznačně určit typ odpovědi. S tímto problémem jsme se setkali u otázek v jednotlivých okruzích. Právě okruhy otázek rozlišují dotazované entity a nelze tak jednoznačně určit, že např. tázacím slovem „který“ a všemi jeho variantami (která, kterými, kterého,…) se ptáme vždy a pouze na nějakou osobu (Který kníže pojal za manželku Boženu, ženu z prostého lidu?). V okruhu otázek z historie jej můžeme přiřadit také ke geografickému názvu (U kterého města se konala v prosinci 1805 bitva "tří císařů"?), události (Ve které bitvě padl Přemysl Otakar II.?), datu (Ve kterém roce se odehrála bitva u Lipan?) nebo věci (Která listina zaručovala českým zemím dědičný královský titul?). Rozhodující při analýze otázky tedy není pouze tázací slovo, ale také oborové zařazení otázek. Určitou jistotu nabízí tázací slovo „kolik“, které se s největší pravděpodobností bude ptát na číslo nebo nějakou hodnotu, tázací slovo „kdy“, které bude zjišťovat datum a tázací slovo „kde“, jež bude zjišťovat geografický název. V některých otázkách oborové zaměření patrné je, a tomu odpovídají i typy otázek. Např. ve sportu je nejčastějším tázacím slovem „který“ (53% otázek), uvozující dotaz na konkrétní sport nebo název týmu (Kterému pražskému fotbalovému celku se říká „klokani“?). Minimum otázek v tomto okruhu však směřuje na události nebo data.
32
7.5 Zpracované otázky Podrobné zpracování otázek z oblasti historie a geografie testovalo 50 otázek z každého okruhu. Celkem 100 otázek bylo podrobeno rozboru a testování ve vyhledávači Google. Seznam všech zpracovaných otázek i s jejich odpověďmi jsou součástí přílohy, jako Příloha č. 6: Seznam zpracovaných otázek z okruhů historie a geografie. Testování správnosti vyhledávání relevantních dat probíhalo přímým zadáním klíčových slov oddělených interpunkčním znaménkem (čárkou) do vyhledávacího pole v prohlížeči Google (viz obr. 6). Výběr klíčových slov zadaných do vyhledávače probíhal manuálně. Otázky obsahující citaci nebo přezdívku ohraničenou uvozovkami, byly zadány beze změny i s uvozovkami (např. „Král Kaše“ nebo „Český Achilles“). Úplně omezeno bylo, až na výjimky citací, zadávání celých vět ohraničených uvozovkami, jelikož vyhledávač považuje takovýto zápis za formulaci, kterou má vyhledat v přesném znění, a to bez jakékoliv možnosti nahrazení třeba jen jednoho slova. Tento zápis byl uplatněn pouze na citované věty nebo výroky, jež jsou ustálené a nemění se (např. „Nepřátel se nelekejte, na množství nehleďte!“ – autor Jan Žižka). Zadání dotazu obsahovalo především substantiva, v některých případech doplněná shodnými či neshodnými přívlastky. Jednalo se tedy převážně o apelativa, propria, či toponyma, dále letopočty a konkrétní data. Tyto údaje jsou významově samostatné a nesou informační hodnotu. V dotazech nebyly uváděny synsémantika, především prepozice a konjunkce, jelikož nejsou významově samostatné a podílí se pouze na výstavbě a organizaci textu. Dále byla vyloučena reflexivní zájmena. Každý dotaz byl posuzován individuálně na základě uvedených informací. Tento proces výběru by však bylo možné zautomatizovat na základě anotovaných dat pomocí konkrétních parametrů požadujících např. vlastní jména, geografické názvy, data či jiné entity. Následně byla zhodnocena relevance vrácených odkazů zobrazených na stránce výsledků. Úspěšnost při zodpovídání otázek ve vyhledávači Google: Za úspěšně vyhledaný odkaz byl považován ten, ze kterého člověk dokáže vyčíst odpověď, tzn. odpovědí nemusí být pouze jedna věta obsahující všechny požadované informace, ale např. více vět, ze kterých lze odpověď poskládat. 33
Úspěšnost byla hodnocena následovně: 1- relevantní odpověď se nacházela v prvním odkazu ( ) 2- relevantní odpověď se nacházela v max. pátém odkazu ( ) 3- relevantní odpověď se nacházela na 1. stránce vyhledávače, tzn. max. desátý odkaz ( ) 4- relevantní odpověď se nacházela na jedenáctém a dalším/vzdálenějším odkazu ( ) 5- odpověď nebyla nalezena v žádném odkazu ( ) Seznam otázek s hodnocením jejich úspěšnosti je uvedený v závěru práce, jako Příloha č. 7: Tabulka hodnocení úspěšnosti.
7.5.1 Výsledky hodnocení Pokrytí všech otázek bylo stoprocentně naplněno, tzn. na každou otázku byl vrácen dostatečný počet odkazů. Hodnota koeficientu úplnosti R (Recall) se rovná 1. Našim cílem však
bylo
zjistit
přesnost
vrácených
odkazů
(Precision).
Pro
přehlednost
jsou
koeficienty P označeny indexy 1–5 a rozděleny na dva oddíly – historie a geografie. Hodnoty R a P jsou vypočteny dle jejich definice uvedené na straně 20. Výstupem byly následující údaje.
Okruh historie Relevantních odkazů nacházejících se již v prvním odkazu bylo z celkových 50 otázek hned 37 (
). Zbývající relevantní odkazy u jednotlivých otázek byly nalezeny
v maximálně pátém odkazu (
). Úspěšnost u
,
a
byla tedy vždy naplněna,
tzn. jejich hodnoty se rovnají 1. Kvalita vyhledávání, tzv. F-skóre pro
podává vynikající
výsledek 0,850574712, čímž se blíží k ideálnímu výsledku v hodnotě 1 (viz. str. 21).
34
Okruh Geografie V testovaných otázkách z okruhu geografie bylo na prvním místě nalezeno dokonce 43 relevantních odkazů (
), čímž své F-skóre zvyšuje oproti okruhu historie
na hodnotu 0,924731182. Úspěšnost vyhledaných relevantních odkazů byla stoprocentně naplněna maximálně do pátého místa, tzn.
a
se rovnají hodnotě 1.
Tyto hodnoty svědčí o vysoké úspěšnosti při vyhledávání dat na internetu. Nutnou podmínkou pro relevantní výsledky je správné zadání dotazu do vyhledávače, jak již bylo zmíněno v kapitole 4.4 Analýza otázky na str. 24. 7.5.2 Problémy při vyhledávání Při vyhledávání se nevyskytlo příliš mnoho problémů. Jedním z mála úskalí byla špatně citovaná věta, jež patří autorovi Janu Amosi Komenskému. Chybně citovaná věta byla přesně opsána z tištěné verze hry z karty č. 317, okruh historie.
Kterému českému mysliteli přísluší slova: "Po přejití vichřice hněvu vláda věcích tvých k tobě se opět navrátí, ó lide český."?
Dle citace uvedené v uvozovkách "Po přejití vichřice hněvu vláda věcích tvých k tobě se opět navrátí, ó lide český." Google nenalezne žádný odkaz, jelikož hledá přesné sousloví, jež je v tomto případě chybné. Avšak po odstranění uvozovek již vyhledávač nabízí opravu a správné znění citace, a tedy „Po přejití vichřic hněvu vláda věcí tvých k tobě se opět navrátí, ó lide český.“ Tato vyhledávaná informace je obsažena v prvním vráceném odkazu. Chybná deklinace byla zapříčiněna nejspíše lidských faktorem. Další problém se může objevit u synonym, tedy jazykového prostředku, který má stejný nebo velmi podobný význam a kontext jako prostředek jiný. (SSČ). Tento jev nastal u otázky na kartě č. 6 z okruhu historie.
„Jak se jmenoval předseda první vlády Československé republiky po roce 1918?“
35
Dotazovaná fráze při vyhledávání zněla: předseda první vlády Československé republiky, 1918. Takto položený dotaz na „předsedu vlády“ nabízí relevantní odpověď v druhém odkazu na první stránce zobrazených výsledků. Při položení dotazu na „premiéra“ v daném roce, vyhledávač nabízí hned první odkaz směřující k seznamu všech premiérů Československa. Synonymní výraz „premiér“, který vstoupil do současnosti jako používanější varianta slova, je i podle vyhledávání preferovanější a nabízí se jako relevantnější odpověď. Záměna synonymních výrazů nemusí být příčinou neúspěšného vyhledávání, ale může vést ke složitějšímu postupu při hledání relevantní odpovědi. Pouze v jednom případě byla při vyhledávání nalezena otázka v totožném znění jako na herní kartě č. 312 okruhu geografie. Otázka byla zveřejněna na webových stránkách Klubu sběratelů turistických suvenýrů v podobě kvízového testu s možnostmi odpovědí.
„V podhůří jakých hor najdeme kopec Tlustec, proslavený těžbou čediče a také bojem ekologů proti této těžbě?“ (KSTS).
V tomto případě je na první pohled sporné, která strana byla autorem otázky a která si ji „vypůjčila“.
8. Závěr Úkolem této práce bylo zpracovat lingvistické aspekty vědomostní deskové hry Česko, otázky a odpovědi a stanovit parametry dotazů, jež povedou k vyhledání relevantní odpovědi. Práce prokázala, že zkoumaný vzorek otázek vykazuje homogenní prvky, které lze standardizovat a dosáhnout tak vysoké úspěšnosti vyhledávání. Ta byla posuzována na základě pořadí odkazu obsahujícího relevantní odpověď. Jelikož se výsledky objevovaly převážně v prvním, maximálně v pátém odkazu, bylo pokrytí všech otázek naplněno na sto procent a zároveň koeficienty přesnosti (Precision) dosahovaly alespoň hodnoty 0,74. (Přičemž ideální, rozumějme maximální, hodnota se rovná 1). Testování bylo prováděno na jednoduchých otázkách dotazujících se na entity, jako jsou fráze, vlastní jména, přezdívky, data, geografické názvy nebo ustálená slovní spojení. Podobným způsobem však lze teoreticky zpracovat lingvistické aspekty dalších otázek – 36
složitějších, či dotazujících se na méně běžné entity. Další zkoumání lingvistických aspektů dotazování a vyhledávání se dle mého názoru může ubírat několika směry: Prvním je tvorba systému zohledňujícího lingvistické aspekty libovolných otázek položených vyhledávači (či vyhledávačům) uživateli v českém jazyce. Jestliže budeme vycházet z faktu, že otázky ve hře Česko lze do jisté míry standardizovat, přestože nebyly standardizovaně tvořeny, můžeme podobný předpoklad uplatnit i na libovolné jiné dotazování. Druhým směrem, kam se výzkum lingvistických aspektů vyhledávání může ubírat, je zpracování odpovědí. V současnosti vyhledávač především poskytuje cestu k požadované informaci, další vyhodnocení a zpracování získané informace je ale na tazateli. Za úspěšný (což platí v této práci i obecně při práci s vyhledávačem) je považován takový dotaz, kdy vyhledávač zobrazí byť jen odstavec s požadovanou informací. V ideálním případě pak větu, která informaci obsahuje. Uživatelsky zcela komfortní vyhledávání by však mělo v ideálním případě zobrazovat pouze požadovanou informaci. To však předpokládá další práci v oblasti zkoumání lingvistických aspektů odpovědí, která musí být úzce provázána s formulací otázek. Zkoumání lingvistických aspektů vyhledávání je dle mého názoru neoddělitelně svázáno s konkrétním jazykem. Vzhledem k enormnímu tržnímu potenciálu je vývoj nejrychlejší v angličtině. Domnívám se, že s dalším rozšiřováním informačních technologií uvnitř populace a definitivním přechodem k informační společnosti vznikne dostatečný tržní potenciál pro tvorbu takto složitých systémů dotazování a vyhledávání i v dalších národních jazycích. Věřím, že i podmínky českého trhu (tedy omezeného uživateli hovořícími českým jazykem) mohou výhledově generovat dostatečný kapitál pro výzkum a vývoj v oblasti lingvistických aspektů dotazování. Jsem přesvědčena, že takový systém by byl navázán na konkrétní jazyk v podobné míře jako například jazykové korpusy zmiňované v této práci a je tedy nepochybné, že jeho případný vznik musí být vázán na české prostředí a není třeba uvažovat konkurenci anglicky hovořících systémů. To je platné jak pro běžné užívání vyhledávače Google tak pro lingvistické bádání. Lingvistické aspekty odpovědí mohou být předmětem dalšího zkoumání v samostatné práci.
37
9. Přílohy 9.1 Příloha č. 1: Dostupné korpusy ČNK Korpusy psaného jazyka (synchronní) velikost (počet slov)
rok zveřejnění
1 300 mil.
2010
└ SYN2010
100 mil.
2010
└ SYN2009PUB └ SYN2006PUB
700 mil. 300 mil.
2010 2006
└ SYN2005
100 mil.
2005
└ SYN2000
100 mil.
2000
FSC2000
100 mil.
2004
2 mil.
2012
LINK
1,8 mil.
2010
KSK-DOPISY
800 000
2006
ORWELL
80 000
2003
korpus
SYN
CzeSL-PLAIN
charakteristika korpusu
nereferenční18 spojení všech synchronních psaných korpusů řady SYN žánrově vyvážený korpus, převažují texty z let 2005-2009 korpus publicistických textů z let 1995-2007 korpus publicistických textů z let 1989-2004 žánrově vyvážený korpus, převažují texty z let 2000-2004 žánrově vyvážený korpus, převažují texty z let 1990-1999 upravený SYN2000, referenční zdroj Frekvenčního slovníku češtiny nereferenční žákovský korpus češtiny nerodilých mluvčí nereferenční korpus sestavený z odborných lingvistických textů přepisy ručně psané korespondence z let 19902004 ručně označkovaný korpus Orwellova románu „1984“ korpus školních písemných prací
SKRIPT2012 590 000 2013 Korpusy mluveného jazyka (synchronní) korpus
ORAL2008 ORAL2006 SCHOLA2010 PMK BMK
velikost (počet slov)
rok zveřejnění
1 mil.
2008
1 mil. 790 000 675 000 490 000
2006 2010 2001 2002
18
charakteristika korpusu
sociolingvisticky vyvážený korpus neformální mluvené češtiny korpus neformální mluvené češtiny korpus vyučovacích hodin Pražský mluvený korpus Brněnský mluvený korpus
Většina korpusů ČNK jsou referenční entity, které zůstávají po celou dobu od svého zveřejnění neměnné, takže všechny dotazy, statistiky apod. jsou opakovatelné a dávají stále stejné výsledky. Některé korpusy však mají naopak nereferenční povahu, což znamená, že jsou průběžně vylepšovány a rozšiřovány. Všechny tyto změny jsou vždy po nějaké době promítnuty do již zveřejněného korpusu. K aktualizaci nereferenčního korpusu dochází nepravidelně, přibližně jednou ročně, většinou bez předchozího upozornění.
38
Diachronní korpusy korpus
DIAKORP Cizojazyčné korpusy korpus
DOTKO HOTKO deWaC frWaC itWaC ukWaC Paralelní korpus korpus
InterCorp
velikost (počet slov)
rok zveřejnění
charakteristika popisu
1, 95 mil.
2005
nereferenční korpus diachronní složky ČNK
velikost (počet slov)
rok zveřejnění
charakteristika popisu
12 mil.
2010
36 mil. 1 350 mil. 1 350 mil. 1 350 mil. 1 350 mil.
2013 2013 2013 2013 2013
velikost (počet slov)
rok zveřejnění
92 mil.
2008
Data k 25. 6. 2013. Zdroj: (UCNK).
39
nereferenční korpus dolní lužické srbštiny, převažují texty z let 1848-1933 nereferenční korpus horní lužické srbštiny webový korpus němčiny webový korpus francouzštiny webový korpus italštiny webový korpus britské angličtiny charakteristika popisu
nereferenční paralelní korpus vznikající v rámci projektu InterCorp
9.2 Příloha č. 2: Četnost používání jednotlivých vyhledávačů
Data k období červen 2012 až červen 2013. Zdroj: (TOP).
40
9.3 Příloha č. 3: Ukázka konverzace s Apple Siri
Zdroj: (Jur), slide 50 Vysvětlivky: U = User, uživatel S = Siri
Zdroj: (App)
41
9.4 Příloha č. 4 Pravidla vědomostní deskové hry Česko, otázky a odpovědi Herní materiál: 400 karet s 2 400 otázkami a odpověďmi, herní plán, 6 figurek, 36 žetonů s mapou České republiky v šesti barvách, kostka, pravidla. Cíl hry: V této hře se snažíte správně odpovídat na otázky z šesti různých okruhů. Pohybujete svojí figurkou na herním plánu a podle toho, na kterém poli skončíte, se určí okruh otázky, na kterou budete odpovídat. Pokud skončíte pohyb na políčku historie, budete odpovídat na otázku z historie. Pokaždé, když odpovíte správně, dostanete žeton s mapou České republiky v barvě příslušející danému okruhu otázek. Cílem hry je nasbírat šest žetonů v šesti různých barvách. Ve chvíli, kdy se vám podaří tyto žetony nasbírat, zamíříte ke středovému poli. Pokud správně odpovíte na závěrečnou otázku, zvítězíte. Karty otázek: Otázky jsou rozděleny do šesti různých okruhů: historie, kultura, příroda/technika/věda, geografie, sport a různé. Na každé kartě je jedna otázka z každého z šesti okruhů. Tyto okruhy jsou vyznačeny na kartách i na žetonech. Jsou vyznačeny i na polích na herním plánu, takže bude vždy jasný okruh, ze kterého bude otázka, na kterou budete odpovídat. Správnou odpověď na každou otázku najdete na zadních stranách karet s otázkami. Příprava hry: Karty otázek zamíchejte a rozdělte na přibližně tolik stejných hromádek, kolik bude hráčů. Hráči si hromádky rozeberou a dají před sebe otázkami nahoru. Každý hráč si vybere jednu figurku a postaví ji na jedno z rohových polí herního plánu. Na jednom poli může stát více figurek. Všichni hráči hodí kostkou a ten, kdo hodí nejvyšší číslo, začíná. Další hráči pokračují ve hře po směru hodinových ručiček. Před začátkem hry byste se měli dohodnout, jakou přesnost odpovědí na otázky budete během hry vyžadovat. Například pokud je položena otázka na jméno osoby, zda bude jako správná 42
odpověď stačit příjmení nebo celé jméno. Nebo pokud je položena otázka na datum, jestli bude povolena nějaká tolerance. Také si vždy dobře přečtěte otázku. Mnoho odpovědí obsahuje i doplňující informace, které však není nutné zodpovědět. Průběh hry: Když je hráč na tahu, hodí kostkou a posune svoji figurku na herním plánu o příslušný počet polí v libovolném směru. Pole, na kterém figurka skončí svůj pohyb, určí okruh, ze kterého bude položena otázka. Pokud figurka skončí na jednom z rohových polí (symbol vlajky), může si hráč okruh zvolit. Poté hráč po jeho levici vezme kartu otázek zespodu své hromádky a přečte příslušnou otázku. Nastane jedna z následujících třech možností: Pokud hráč neodpoví nebo odpoví nesprávně, jeho tah končí a hraje hráč po jeho levici. Pokud hráč odpoví správně, dostane žeton v barvě příslušného okruhu a položí si ho před sebe. Jeho tah končí a hraje hráč po jeho levici. Pokud hráč odpoví správně na otázku z okruhu, ze kterého už žeton má, nedostává již další žeton (nikdo nesmí mít více žetonů jedné barvy), ale získává nový tah. Opět hodí kostkou a podle čísla, které padlo, opět posune svoji figurku. Hráč po jeho levici vytáhne další kartu otázek a přečte tu, která přísluší okruhu, na kterém figurka skončila svůj další pohyb. Tímto způsobem může hráč ve svém tahu pokračovat do té doby, dokud bude na otázky odpovídat správně. Na konci tahu je použitá karta otázek vyřazena ze hry. Cesta k vítězství: Ve chvíli, kdy hráč nasbírá všech šest různých žetonů, může v dalším kole zamířit na jedno z rohových polí, které si pro postup do středu vybere. Po cestě může standardně odpovídat na otázky a využít tak možnost dalšího tahu při správné odpovědi. Pokud hráč hodí vyšší číslo, než potřebuje, aby se na zvoleném rohovém poli zastavil, může se na něm zastavit. Zde každopádně končí svůj tah. Od svého dalšího tahu hráč již nehází kostkou a posouvá se na první pole s otázkami směrem ke středu herního plánu. Posunout se dál, směrem ke středu, je nyní možné pouze tak, že hráč správně zodpoví otázku na poli, na kterém právě stojí. Okruhy otázek jsou i na těchto polích vyznačeny. 43
Pokud hráč neodpoví nebo odpoví nesprávně, jeho tah končí, jeho figurka zůstává stát na místě a hraje hráč po jeho levici. V příštím kole bude hráč odpovídat na další otázku ze stejného okruhu. Pokud hráč odpoví správně, posune svoji figurku o jedno pole směrem ke středu. Jeho tah i tak končí a v příštím tahu bude odpovídat na otázku na dalším poli. Vítěz: Pokud hráč odpověděl správně na otázky na obou polích mezi rohovým a středovým polem, postoupí se svojí figurkou na středové pole. Ve svém dalším kole bude hráč odpovídat na jednu otázku z okruhu, který vybere hráč po jeho levici. Tento hráč vybírá okruh bez toho, aby se předem podíval na otázky. Pokud hráč neodpoví nebo odpoví nesprávně, jeho figurka zůstává na středovém poli a v příštím kole bude hráč opět odpovídat na otázku z okruhu, který zvolí hráč po jeho levici. Tento okruh může být jiný než v předchozím kole. Pokud hráč odpoví správně, stává se vítězem.
Varianty hry: 1. Hra pouze na vnějším kruhu herního plánu. Hráč dostane kterýkoliv žeton s mapou pokaždé, když správně odpoví na otázku. Hra končí ve chvíli, kdy byly posbírány všechny žetony. Zvítězí hráč, který jich nasbíral nejvíce. 2. Hra bez herního plánu. Použijí se pouze karty otázek. Výběr okruhu určíte hodem kostkou (1-6). Pokud hráč odpoví správně, nechá si u sebe kartu otázek. Zvítězí hráč, který nasbírá za předem dohodnutý čas nejvíce karet otázek. 3. Pohybujte figurkami po herním plánu pouze ve směru hodinových ručiček. Prodlouží to hru o několik otázek a bude víc záležet na tom, kolik padne na kostce. 4. Můžete také hrát v týmech. Před začátkem hry je ale třeba rozhodnout, jestli se při odpovídání na otázky mohou členové týmu spolu radit nebo ne. 5. Nabídneme vám také akčnější variantu. Ve chvíli, kdy figurka skončí svůj pohyb na políčku, kde stojí figurka jiného hráče a hráč správně zodpoví otázku, může se 44
rozhodnout místo získání žetonu či získání tahu navíc vzít jakýkoliv žeton hráči, jemuž figurka patří, a dát mu za něj jeden ze svých. Musí však dodržet pravidlo, že žádný hráč nesmí mít více žetonů jedné barvy. 6. V případě, že je pro hráče obtížný okruh otázek na políčku, na kterém stojí jeho figurka, může si místo něj libovolně vybrat jiný okruh otázek, ale zodpovědět otázky dvě. Pokud odpoví obě správně, dostane jeden žeton v té barvě, na kterém políčku stojí.
Dodatek Hra je určena pro 2-6 hráčů, nejlépe od 12 let. Doba trvání jedné hry je přibližně 45 minut.
Ukázka vědomostní deskové hry Česko, otázky a odpovědi
Zdroj: (Alb) 45
9.5 Příloha č. 5: Klasifikace tázacích slov u jednotlivých okruhů
Kultura co 2%
kdo 13% který 43%
Který Jak/jaký Co Kdo
43 42 2 13
Celkem
100
Který Jak/jaký Co Kdo Kolik Kde Kdy Proč
33 36 18 3 4 2 2 2
Celkem
100
jak/jaký 42%
Příroda, technika, věda kdy proč kde 2% 2% kolik 2% 4% kdo 3% který 33%
co 18%
jak/jaký 36%
46
Sport kdy 1% kolik 14%
kdo 6% co 1%
který 53%
jak/jaký 25%
Různé kde kdy kolik kdo 5% 1% 1% 4%
proč 1%
které 14%
co 24%
jak 50%
47
Který Jak/jaký Co Kdo Kolik Kdy
53 25 1 6 14 1
Celkem
100
Který Jak Co Kdo Kolik Kde Kdy Proč
14 50 24 4 5 1 1 1
Celkem
100
9.6 Příloha č. 6: Seznam zpracovaných otázek z okruhů historie a geografie Pozn.: Každá otázka uvádí v závorce označení kartičky ze hry Česko, pro potřeby dohledání nebo případné kontroly. HISTORIE 1) Kterému panovníkovi (1306-1307) se přezdívalo "Král Kaše"? - Rudolfu Habsburskému (335) 2) Jak se jmenoval významný český vojevůdce třicetileté války zavražděný v roce 1634 v Chebu? - Albrecht z Valdštejna (383) 3) Kterému českému mysliteli přísluší slova: "Po přejití vichřice hněvu vláda věcích tvých k tobě se opět navrátí, ó lide český."? - Janu Amosi Komenskému (317) 4) Jak se jmenovala mezinárodní organizace, předchůdce dnešní OSN, jejímž zakládajícím členem v roce 1919 bylo i Československo? - Společnost národů (312) 5) Jak se jmenovala sestra Oty Svinibrodského, kterou unesl kníže Břetislav? - Jitka/Judita (306) 6) Kterými třemi, dnes krajskými, městy probíhala na sklonku II. světové války tzv. demarkační linie? - Karlovy Vary, Plzeň, České Budějovice (390) 7) Jaké řeholní jméno přijal věrozvěst Konstantin ze Soluně? - Cyril (320) 8) Jak se jmenoval kejklíř krále Václava IV., kterého podle pověsti odnesl čert? - Žito (342)
48
9) Jak se jmenoval slavný stíhací pilot přezdívaný "generál nebe", který bojoval jako pilot 2. světové války ve Francii a v Anglii? Po válce odešel do emigrace a v roce 1993 se vrátil zpět. generál František Peřina (367) 10) Jakým handicapem trpěl Jan Lucemburský posledních 7 let svého života? - byl slepý (314) 11) U kterého města se konala v prosinci 1805 bitva "tří císařů"? - u Slavkova (378) 12) Který český panovník měl za ženu Annu Přemyslovnu? - Jindřich Korutanský (87) 13) Který český panovník byl pro svou odvahu a bojovnost přezdíván "Český Achilles"? kníže Břetislav I. (328) 14) Co znamená zkratka KAN? Datum založení je 5. 4. 1968. - Klub angažovaných nestraníků (362) 15) Který kníže pojal za manželku Boženu, ženu z prostého lidu? - Oldřich (303) 16) Jak nazýváme umělecký sloh, na pomezí mezi renesancí a barokem, který se prosadil také na dvoře Rudolfa II.? Jeho představitelem v Praze byl např. Guiseppe Arcimboldo. manýrismus (380) 17) Který náš prezident měl heslo: "Nebát se a nekrást"? - T. G. Masaryk (309) 18) Jaký přídomek měl Boleslav I. (915-967 nebo 972)? - Ukrutný (347) 19) Ve které naší dělostřelecké tvrzi se nachází největší muzeum československého stálého opevnění na území České republiky? - v tvrzi Bouda (374) 20) Který český panovník nechal roku 1348 postavit Nové Město pražské? - Karel IV. (361)
49
21) Ve kterém roce byla svatořečena Anežka Česká? - v roce 1989 (357) 22) Ze kterého vojenského řádu je tento bod: "Ještě než vojsko potáhne z ležení pryč, musí se všichni pomodlit k Bohu."? - z Žižkova vojenského řádu (346) 23) Jak se jmenoval Nitranský kníže poražený Mojmírem I. roku 833? - Pribina (318) 24) Který vojevůdce povzbuzoval své vojsko v boji slovy: "Nepřátel se nelekejte, na množství nehleďte!"? - Jak Žižka (308) 25) Kdo zakládal v letech 1911-1912 český skauting a stal se také prvním starostou skautské organizace? - Antonín Benjamín Svojsík (340) 26) Se kterým československým komunistickým politikem je především spojován tzv. "socialismus s lidskou tváří" v 60. letech" - s Alexandrem Dubčekem (305) 27) Který český historik řekl: "Byli jsme před Rakouskem, budeme i po něm."? - František Palacký (301) 28) Jak se jinak nazývala "Smlouva o vytvoření stabilního politického prostředí v České republice uzavřená mezi ČSSD a ODS", která byla vytvořena po předčasných volbách v roce 1998? - Opoziční smlouva (372) 29) Který král byl manželem Anny z Foix a Candale (1480-1506), uherské a české královny (od r. 1502)? - Vladislav II. Jagelonský (381) 30) Ve kterém roce rezignoval Antonín Novotný na funkci prezidenta? - 1968 (22. 3.) (325) 31) Ve které bitvě padl Přemysl Otakar II.? - v bitvě na Moravském poli (351) 32) Ve kterém roce se odehrála bitva u Lipan? - 1434 (2) 50
33) Jak se jmenoval manžel Marie Terezie? - František Štěpán Lotrinský (3) 34) Kde zemřel T. G. Masaryk? - na zámku v Lánech (5) 35) Jak se jmenoval předseda první vlády Československé republiky po roce 1918? - Karel Kramář (6) 36) Kdy vstoupila ČR do EU? Uveďte přesné datum. - 1. 5. 2004 (9) 37) Kdo byl československým prezidentem v době srpnových událostí v roce 1968? - Ludvík Svoboda (12) 38) Ve kterém městě byl zavražděn Svatý Václav? - ve Staré Boleslavi (13) 39) Jak se jmenovala manželka Františka Ferdinanda d´Este? - Žofie Chotková (14) 40) Jak se jmenovali byzantští věrozvěstové, šiřitelé křesťanství, kteří přišli v roce 863 na Velkou Moravu? - Cyril/Konstantin a Metoděj (15) 41) Která listina zaručovala českým zemím dědičný královský titul? - Zlatá bula sicilská (19) 42) Ve kterém roce byla založena Karlova univerzita? - 1348 (20) 43) Kterému králi se říkalo "Král železný a zlatý"? - Přemyslu Otakarovi II. (22) 44) Pod jakým názvem vstoupil do dějin konflikt vyvolaný neshodami katolíků a protestantů, který probíhal v letech 1618-1648? - třicetiletá válka (35) 45) Který český král vydal v roce 1609 "Majestát", který zaručoval náboženskou svobodu? Rudolf II. (31) 51
46) Kdy se uskutečnila bitva na Bílé hoře? Uveďte alespoň měsíc a rok. - 8. 11. 1620 (32) 47) Jak se jmenoval vůdce Chodů, který byl roku 1695 popraven? - Jan Sladký Kozina (37) 48) Kolik dětí měla Marie Terezie? - 16 (39) 49) Jak se nazýval manifest spisovatele Ludvíka Vaculíka, který byl zveřejněn roku 1968 a který nabádal k podpoře demokratizačních procesů v zemi? - Dva tisíce slov (40) 50) Který král pronesl výrok: "Toho bohdá nebude, aby český král z boje utíkal."? - Jan Lucemburský (51)
GEOGRAFIE 1) Ve kterém městě stojí Sloup nejsvětější trojice zapsaný do seznamu UNESCO? – V Olomouci (335) 2) Ve kterém městě na řece Sázavě se každoročně koná známý folkový festival Horácký džbánek? - ve Žďáru nad Sázavou (399) 3) Jak se jmenuje krajské město, kterému na horizontu dominuje sídliště Jižní svahy? - Zlín (398) 4) Ve kterém kraji najdeme východně od Prostějova obec Pivín? - v Olomouckém (396) 5) Ve kterém městě najdeme barokní hřbitovní kostel Zelená hora zapsaný do seznamu UNESCO? - ve Žďáru nad Sázavou (317) 6) Na které řece leží vodní nádrž Římov? - na řece Malši (15) 52
7) Která řeka pramenící v Jizerských horách protéká Železným Brodem? - Jizera (371) 8) Který kraj ČR je rozlohou největší? - Středočeský kraj (11 015 km2) (17) 9) Jak se jmenuje řeka, na níž je vybudována nádrž pitné vody Švihov, která dálkovým přivaděčem zásobuje také Prahu? Nádrž bývá někdy označována stejně jako řeka. - Želivka (391) 10) V podhůří jakých hor najdeme kopec Tlustec, proslavený těžbou čediče a také bojem ekologů proti této těžbě? - v podhůří Lužických hor (312) 11) Který zámek na jižní Moravě má v zámeckém parku minaret? - Lednice (387) 12) Jak se jmenuje a kde leží nejnavštěvovanější most pro pěší v ČR? - Karlův most v Praze (385) 13) Které východočeské město se proslavilo více než 400letou tradicí výroby krajek? Vamberk (389) 14) Jak se jmenuje nejnovější otevřený pražský silniční tunel, který vede ze Smíchova na Zlíchov, s odbočkou na Radlice? Byl otevřen v roce 2004. - Mrázovka (313) 15) Jak se jmenuje obec ležící asi 6 km od Turnova proslavená jedním z nejstarších pivovarů v Čechách? - Svijany (384) 16) Ve kterém městě je hvězdárna a planetárium Mikuláše Koperníka? - v Brně (307) 17) Jak se jmenuje barokní zámek stojící u Chlumce nad Cidlinou, pojmenovaný na počest císaře Karla IV.? - Karlova Koruna (320)
53
18) Která obec na Vysočině se proslavila mohutným hradem a také jako místo úmrtí Jaroslava Haška? - Lipnice nad Sázavou (342) 19) Jak se nazývá nejvýznamnější mariánské poutní místo v ČR? Hora vysoká 734 m.n.m. leží na střední Moravě? - Hostýn (393) 20) Které město je na české straně hraničního přechodu, když na straně rakouské je Wullowitz? - Dolní Dvořiště (356) 21) Kde najdeme cisterciácký klášter Porta Coeli (Brána nebes), proslavený především svým vzácným portálem? - v Předklášteří u Tišnova (322) 22) Jak se jmenuje "papírenské" město ležící v Ústeckém kraji na pravém břehu Labe? - Štětí (358) 23) Ve kterých horách najdeme přírodní památku Rýchory? - v Krkonoších (328) 24) U kterého dnešního krajského města se nachází Sadová, kde byla svedena největší bitva 19. století na našem území, a to v roce 1866? - u Hradce Králové (321) 25) Jak se jmenuje známá ulice v Ostravě, která "nikdy nespí"? Nachází se v ní a v jejím nejbližším okolí téměř 100 hospod a klubů. - Stodolní (302) 26) Nejvyšším vrcholem kterých hor je Lysá hora (1323 m. n. m.)? - (Moravskoslezských) Beskyd (37) 27) Ve kterém městě se vlévá Chrudimka do Labe? - v Pardubicích (375) 28) Které heslo má na sobě znak města Prahy? - Praga Caput Rei Republicae (Praha, hlava republiky) (366)
54
29) Kde se nacházejí největší sluneční hodiny v ČR? - v Prachaticích (330) 30) Která řeka protéká Lovosicemi? - Labe (347) 31) Nad kterou řekou leží zbytky hradiště Tetín, kde podle pověsti žila jedna z Krokových dcer? - nad Berounkou (310) 32) Ve kterém kraji se nacházejí lázně Luhačovice, největší lázně na Moravě? - ve Zlínském kraji (379) 33) Která řeka protéká Kolínem? - Labe (374) 34) Která řeka protéká Havlíčkovým Brodem? - Sázava (355) 35) Který klášter byl jako druhý nejstarší na území ČR založen roku 993 knížetem Boleslavem II.? - Břevnovský klášter (361) 36) Kde se nachází největší zvonková hra v ČR? - Loreta na Pražském hradě (331) 37) Ve které obci poblíž České Lípy najdeme autodrom? - v Sosnové (346) 38) Jak se jmenuje návrší, ze kterého Napoleon Bonaparte řídil vítěznou bitvu u Slavkova v roce 1805? - Žuráň (315) 39) Ze kterého jihočeského města vede úzkorozchodná železniční dráha do Obrataně a Nové Bystřice? - z Jindřichova Hradce (318) 40) Které město na řece Berounce je rodištěm české tenistky Martiny Navrátilové? - Řevnice (319)
55
41) Ve kterém městě nalezneme Stránskou skálu, významné naleziště zkamenělin i pozůstatků pravěkých kultur? - v Brně (308) 42) Kterému městu se přezdívá hanácké Benátky? Řeka Morava tam teče přímo pod náměstím a radniční věží. - Litovel (323) 43) Která moravská hora je nazývána střechou Evropy, voda z jejích svahů je odváděna do tří moří? - Kralický Sněžník (339) 44) Ve kterém městě na Vysočině se vaří pivo Rebel? - v Havlíčkově Brodě (340) 45) Pod povrchem které moravské hory nalezneme v nadmořské výšce 1440 m.n.m. horskou chatu Ovčárna? - pod Pradědem (341) 46) Kde stojí hvězdárna M. R. Štefánika? - v Praze na Petříně (353) 47) Ve které středočeské obci pojmenované po světci najdeme jeskyni poustevníka Ivana? – ve Svatém Janu pod Skalou (333) 48) Které je krajské město kraje Vysočina? - Jihlava (350) 49) Ve kterém městě se koná největší strojírenský veletrh v ČR? - v Brně (349) 50) Jak se nazývá zájmové sdružení, které bylo založeno v r. 1888 Vojtou Náprstkem a které po Čechách vytvořilo hustou síť turistických značek? - Klub českých turistů (KČT) (301)
56
9.7 Příloha č. 7: Tabulka hodnocení úspěšnosti Historie Číslo otázky
Úspěšnost vyhledávání
Číslo otázky
Úspěšnost vyhledávání
1
1
26
2
2
1
27
1
3
1
28
2
4
1
29
1
5
1
30
1
6
1
31
1
7
1
32
1
8
1
33
1
9
1
34
1
10
1
35
2
11
1
36
2
12
2
37
2
13
1
38
1
14
1
39
1
15
1
40
1
16
2
41
2
17
2
42
1
18
1
43
1
19
1
44
1
20
1
45
2
21
1
46
1
22
1
47
1
23
2
48
1
24
2
49
1
25
1
50
2
57
Geografie Číslo otázky
Úspěšnost vyhledávání
Číslo otázky
Úspěšnost vyhledávání
1
1
26
1
2
1
27
1
3
1
28
1
4
1
29
1
5
1
30
1
6
1
31
1
7
1
32
1
8
1
33
1
9
1
34
1
10
2
35
1
11
1
36
2
12
2
37
1
13
1
38
1
14
1
39
1
15
2
40
2
16
1
41
1
17
1
42
1
18
1
43
2
19
1
44
1
20
2
45
1
21
1
46
1
22
1
47
1
23
1
48
1
24
1
49
1
25
1
50
1
58
10. Bibliografie 10.1 Tištěné zdroje (DIS) POKORNÝ, Jaroslav, Václav SNÁŠEL a Dušan HÚSEK. Dokumentografické informační systémy. 1. vydání. Praha: Karolinum, 1998, 158 s. (Huizinga, 2000) HUIZINGA, Johan. Homo ludens : o původu kultury ve hře. Vyd. 2., v edici Studie 1. Praha: Dauphin, 2000. 297 s. KARLÍK, P., NEKULA, M., RUSÍNOVÁ, Z. (eds). Příruční mluvnice češtiny. Vyd. 2. opr. Praha: Nakladatelství Lidové noviny, 2008. 799 s. (MIR) BAEZA-YATES, Ricardo a Berthier de Araújo Neto RIBEIRO. Modern information retrieval. 1. vydání. New York: ACM Press, 1999, 513 s. (Polák, 2006) POLÁK, Martin. Doplnění domén do systému zodpovídání otázek UIO [online]. Brno, 2006 [cit. 2013-04-15]. 27 s. Dostupné z: http://is.muni.cz/th/72751/fi_b/bc_out.pdf. Bakalářská práce. Masarykova univerzita, Fakulta informatiky. (SSČ). FILIPEC, J., DANEŠ, F., MEJSTŘÍK, V. (eds). Slovník spisovné češtiny pro školu a veřejnost. Vyd. 2. Praha: Academia, 2000. (Svoboda, 2001) SVOBODA, Zdeněk. Znalec encyklopedie. Brno, 2001. 55 s. Diplomová práce. Masarykova univerzita, Fakulta informatiky.
10.2 Elektronické zdroje (Alb) Česko. Albi.cz [online]. [cit. 2013-04-15]. Dostupné z: http://www.albi.cz/hry-azabava/cesko/.
59
(App)
iOS
Siri. Apple.com [online].
2013
[cit.
2013-04-15].
Dostupné
z:
http://www.apple.com/ios/siri/. (HB) Hra. Hnutí Brontosaurus: Program vzdělávání [online]. 2009 [cit. 2013-04-15]. Dostupné z: http://vzdelavani.brontosaurus.cz/pro-organizatory/o-programu/100-tom.html. ČERVENÝ, Vlastimil. Vyhledávání v databázích plných textů [online]. 1999, s. 6-12[cit. 2013-04-15]. Dostupné z: http://knihovna.nkp.cz/Nkkr9901/9901006.html.
(Diit)
IBM
Watson:
Superpočítač
zná
odpověď
na
otázku
života,
vesmíru
a
vůbec. Diit.cz [online]. 14. 12. 2011 [cit. 2013-04-15]. Dostupné z: http://diit.cz/clanek/ibmwatson-superpocitac-zna-odpoved-na-otazku-zivota-vesmiru-a-vubec. (EP) Europol [online]. 2013 [cit. 2013-06-27]. Dostupné z: https://www.europol.europa.eu/.
(Ferr) FERRUCCI, David et al. Building Watson: An Overview of the DeepQA Project. In: AI MAGAZINE
[online].
2013
[cit.
Dostupné
2013-04-14].
z:
http://www.aaai.org/ojs/index.php/aimagazine/article/view/2303. (Goog) Google [online]. 2013 [cit. 2013-04-14]. Dostupné z: http://www.google.cz/ig. JANOVSKÝ, Dušan. Záhadný Google Toolbar PageRank. Lupa.cz: Server o českém internetu [online].
25.
1.
2005
[cit.
2013-04-15].
Dostupné
z:
http://www.lupa.cz/clanky/zahadny-google-toolbar-pagerank/.
(Jur) JURAFSKY, Dan. Question Answering: What is Question Answering?. In: Stanford University [online].
[cit.
2013-04-15].
Dostupné
z:
http://www.stanford.edu/class/cs124/lec/qa.pdf. (KPI) ČERNÝ, Michal a Gabriela ŠIMKOVÁ. Kurz práce s informacemi: Google a jeho nástroje. Kabinet informačních studií a knihovnictví, Brno, 2012.
60
(KSTS) Znáte krásy naší vlasti 2 ?. Klub sběratelů turistických suvenýrů [online]. 2007 [cit. 2013-06-25]. Dostupné z: http://www.ksts.info/www/?idc=kviz/test04. Kvízové
hry
(Česko..). Albi.cz [online].
[cit.
2013-04-15].
Dostupné
z:
http://www.modernihry.cz/kvizove-hry-cesko-c-58_84.html. (nlp.online) Centrum zpracování přirozeného jazyka. NLP [online]. 2012 [cit. 2013-04-15]. Dostupné z: http://nlp.fi.muni.cz/cs/nlplab. (Pala, 2000). PALA, Karel. Počítačové zpracování přirozeného jazyka [online]. Brno, 2000, 128 s. [cit. 2013-04-15]. Dostupné z: http://nlp.fi.muni.cz/poc_lingv/pala_zprac.pdf. PANEVOVÁ, Jarmila. Počítačová lingvistika ve vztahu k informatice. In: Pokroky matematiky, fyziky a astronomie [online]. Praha, 2000 [cit. 2013-04-15]. Czech Digital Mathematics Library. Dostupné z: http://dml.cz/dmlcz/141038. (Panev) PANEVOVÁ, Jarmila. Čím může bohemistice přispět současná počítačová lingvistika?
[online].
Univerzita
Karlova,
Praha
[cit.
2013-04-15].
Dostupné
z:
http://ufal.mff.cuni.cz/publications/year2002/opava10.pdf. Podrobná historie společnosti. Google [online]. 2012 [cit. 2013-04-15]. Dostupné z: http://www.google.cz/intl/cs/about/company/history/. POLESNÝ, David. WolframAlpha: tohle vyhledávač Googlu neumí. Živě.cz [online]. 18. 5. 2009
[cit.
2013-04-15].
Dostupné
z:
http://www.zive.cz/clanky/wolframalpha-tohle-
vyhledavac-googlu-neumi/sc-3-a-147072/default.aspx. (PR) Pageranky.cz. Pageranky.cz: idnes.cz [online]. 2008-2011 [cit. 2013-04-15]. Dostupné z: http://pageranky.cz/ranky/idnes.cz.
61
(SST) – SALEH SALEM, Tárik. Zodpovídání otázek - získávání odpovědí z textů. In: Studentská věecká konference 2009 [online]. 2009 [cit. 2013-04-15]. Dostupné z: http://www.fav.zcu.cz/fakulta/akce/studentska-vedeckakonference/2009/cd/pdf/KIV/Bc/salem_tarik.pdf.
(ST) How START works!. START: Natural Language Question Answering System [online]. [cit. 2013-06-23]. Dostupné z: http://start.csail.mit.edu/start-system.html. TKAČÍKOVÁ, Daniela. Nástroje pro účinné vyhledávání informací [online]. 1. vyd. Ostrava: Vysoká škola báňská - Technická univerzita, 2010, 1 CD-ROM [cit. 2013-04-15]. Dostupné z: http://dspace.vsb.cz/bitstream/handle/10084/78275/nastroje-pro-ucinne-vyhledavanitkacikova.pdf?sequence=3. (TOP) TOPlist [online]. 2013 [cit. 2013-06-27]. Dostupné z: http://history.toplist.cz/. TRNĚNÁ, Michaela. DARPA Grand Challenge: Závod plně automatizovaných vozidel. Brno, 2012. Seminární práce. Masarykova univerzita. (UCNK) Český národní korpus: Dostupné korpusy. Ústav českého národního korpusu FF UK, Praha [online]. 2013 [cit. 2013-04-15]. Dostupné z: http://www.korpus.cz/struktura.php.
(Wat) IBM Watson: Ushering in a new era of computing. IBM [online]. [cit. 2013-06-30]. Dostupné
z:
http://www-
03.ibm.com/systems/cz/power/advantages/watson/index.html?lnk=Watson_brochure&lm=P&l ot=I&lsot=SLS&lpg=LMTN&re=watson_cz. (WiRe) Rešerše. In: Wikipedie: Otevřená encyklopedie [online]. 2013 [cit. 2013-04-15]. Dostupné z: http://cs.wikipedia.org/wiki/Re%C5%A1er%C5%A1e.
62
(WPR) PageRank. In: Wikipedia: the free encyclopedia [online]. San Francisco (CA): Wikimedia
Foundation,
2013
[cit.
2013-04-15].
Dostupné
z:
http://cs.wikipedia.org/wiki/PageRank. ZANDL, Patrick. Wolfram Alpha proti Google a s médii. Lupa.cz: Server o českém internetu [online]. 20. 5. 2009 [cit. 2013-04-15]. Dostupné z: http://www.lupa.cz/clanky/wolfram-alphaproti-google-a-s-medii/.
10.3 Použité nástroje DEBDict Dostupný z
. Autoři: Aleš Horák, Martin Povolný, Adam Rambousek.
63