Aplikovaná informatika
Analýza validity informací a tvorba citací. ZEMÁNEK, Z. - PLUSKAL, D. - SMETANA, B.
Operační program Vzdělávání pro konkurenceschopnost Název projektu: Inovace magisterského studijního programu Fakulty ekonomiky a managementu Registrační číslo projektu: CZ.1.07/2.2.00/28.0326
Analýza validity informací a tvorba citací. 1.
i
2. 3. 4.
Analýza validity informací ve vybraném SW Analýza získaných informací z Data Miningu Doplnění citací pro KP Kontrolní otázky a úkoly samostudia
Cíle cvičení 1.
Předat studentům základní informace o analýze informací ve vybraném software.
2.
Uvést a objasnit základy tvorby citací se softwarovou podporou.
3.
Uvést postup tvorby citace a analýzy informací pro KP.
Analýza validity informací ve vybraném SW Při získávání dat z různých zdrojů, stejně jako při statistickém hodnocení technologických procesů (například dodržení předepsaných standardů), je důležité zkoumat validitu, to jest platnost získaných výsledků vzhledem ke skutečnosti. Kvalitativní nebo nezávislá kvantitativní validace je důležitá zejména tam, kde zkoumaný jev nelze úplně oddělit od dalších vlivů a kde je interpretace výsledků složitá. je ov ověřit uložených dat platnost platnost „„Smyslem Smyslem je ěřit uu ulo žených dat současně zjistit jak jak dalece dalece jsou jsou informace informace aa sou časně zjistit [1] relevantníí vzhledem vzhledem kk řřešenému problému. relevantn ešenému probl ému. [1]
Frekvenční analýza textu – hustota klíčových slov Je základní metodou vytěžování nestrukturovaných textů. Jako univerzální metoda našla své uplatnění v dešifrování. Analyzovat lze i texty vyjádřené graficky. Pro text mining má význam analýza klíčových slov (keywords analysis). Je spojená s konkrétním jazykem A. C. Doyle -Tančící figurky.
Frekvenční analýza textu - význam klíčových slov Odpověď důležitosti výskytu (keyword density) klíčových slov dává frekvenční analýza slov. Ve všech přirozených jazycích platí tzv. Zipfův zákon - potom součin tohoto pořadí dle frekvence a frekvence slova zůstává pro všechna slova přibližně konstantní. S výjimkou těch nejméně a nejvíce četných slov toto pravidlo funguje velmi dobře. [2]
Frekvenční analýza textu - význam klíčových slov Důsledek Zipfova zákona - základ jazyka je tvořen relativně malým počtem stále se opakujících slov. Při selekci nevýznamných slov s frekvencí < 10 (překlepy a chyby…), snížíme počet slov dokonce na 17 %. Seznam takzvaných stop slov = převážně spojky a předložky, které lze vynechat. [2]
Frekvenční analýza textu - význam klíčových slov Extrakce příznaků - nahrazení původní množiny příznaků novou - sloučit do jedné dimenze slova, která mají stejný význam. Lemmatizace - převod slova na jeho základní tvar vhodný pro češtinu. Stemming - převod slova na jeho kmen – vhodný pro angličtinu. = Například základním tvarem slova učil je infinitiv učit a kmenem je uč.
[2]
Frekvenční analýza textu - význam klíčových slov Velkým problémem lemmatizace a stemmingu je víceznačnost. nost Problém homonym - slova souzvučná (slova se dvěma významy = zámek (visací zámek, sídlo šlechtice).
Problém synonym - zubař vs. stomatolog. [2] Dvě lemmata ??
Dvě lemmata ??
Vybrání správného lemmatu (desambiguace).
Data Mining - Text Mining ve fulltextu Získávání (dobývání) znalostí z dat nazýváme proces netriviálního získávání implicitní, dříve neznámé a potencionálně užitečné a platné (validní) informace z dat. Data Miningové metody pracují s čísly, případně s nominálními či ordinálními proměnnými, jako jsou názvy kategorií apod. Text mining pracuje s nestrukturovaným textem, lze ho tedy definovat jako proces vytěžení cenné informace z textu, metoda může pomoci i při samotné dataminingové analýze.
Podstata Text Miningu Dolování z textu (angl. Text Mining [text majnyn]) je vědecká disciplína na pomezí dolování z dat, strojového učení a počítačové lingvistiky. Vyvíjí se s potřebou automatického zpracování velkého množství informací v podobě volného textu. Klasické metody dolování z dat totiž pracují pouze se strukturovanými daty (obsahujícími metadata důležitá pro zpracování) a většina informací jim tak zůstává nepřístupná. [1] 11
Využití Text Miningu Shrnutí textu (text summary) Vybrat nejdůležitější pasáže (např. věty) a ty vhodně seřadit (summary extraction). Nebo je možné text hlouběji analyzovat a na základě jeho sémantické reprezentace parafrázovat jeho obsah (summary abstraction). Analýza sentimentu (sentiment analysis) Na základě výskytu citově zabarvených slov lze usuzovat na autorův pozitivní či negativní postoj k předmětu zprávy. [1]
Využití Text Miningu Data Data
Určování druhu textů Přiřazení kategorie - sport, politika, krimi. Podle frekvence klíčových slov. Shlukování textů/dokumentů (text clustering) do skupin na základě jejich vzájemných podobností. Každý dokument je zařazen právě do jedné skupiny. Vytvořené skupiny mohou, ale nemusí odpovídat očekávaným kategoriím(množství čísel).
Využití Text Miningu Extrakce konceptů; rozpoznání pojmenovaných entit (concept extraction; named entity recognition) Jde o určení entit, které jsou v textu zmíněny (např. v článku o telekomunikacích by tedy výrazy „mobilní operátor“ a „Vodafon“ měly být přiřazeny stejné entitě).
Určení vztahu mezi entitami Určení entity umožňuje na základě analýzy vět (např. pomocí rámců - FrameNet) určit jejich vztahy (např. z výrazu „Karel je ženatý s Evou“ je možné získat vztah, že Eva je manželkou Karla).
TextStat – frekvenční analýza – hustota klíčových slov Software TextStat - z libovolného textového souboru vygeneruje statistiku: počet řádků, počet slov, počet znaků, počet vět, počet mezer, počet použití tabulátorů a několik dalších informací. Vygenerovanou statistiku lze uložit do souboru. = Program umožňuje několik dalších nastavení, jako například zadání nepočitatelných znaků a podobně. [3]
Citace a jejich zdůvodnění Bibliografické citace uvedené v odborné práci jsou významnou informací pro čtenáře, recenzenty či jiné posuzovatele práce, např. oponenty… Hlavní důvody: Dokázat vlastní orientaci v tématu. Odkázat čtenáře na další literaturu. Dodržet autorskou etiku a zákon o autorských právech. [4]
Bibliografická citace = souhrn údajů o citované publikaci nebo její části umožňující její identifikaci. Uvádí se jednak citace pramene, odkud byla informace převzata, často místo odkud byl citát vybrán, tj. stránka citovaného dokumentu. Veškeré získané cizí informace, které použijeme ve vlastní odborné práci, je nutno citovat a používat odkazy na citace. [4]
Etapy práce s citacemi 1. Vytvoření bibliografických citací = citace musí publikaci jednoznačně identifikovat, aby byla vyhledatelná v katalogu, v časopise, na www, atd. 2. Vytvoření a uspořádání soupisu citací = seznam použité literatury. 3. Odkazování v textu na bibliografické citace v seznamu použité literatury, = odkazy na příslušné publikace v seznamu použité literatury uvedené v textu na místě, kde je použita myšlenka citovaného autora, popis jeho metody nebo odvolání na výsledky jeho práce. [4]
Citační normy ISO 690 Bibliografické citace – obsah, forma struktura… = schémata a příklady citací různých druhů dokumentů, stanoví pořadí a způsob uvádění jednotlivých údajů v citaci. ISO 690-2 Bibliografické citace. Část 2: elektronické dokumenty nebo jejich části. [4] ŠARMANOVÁ, Jana. METODY ANALÝZY DAT - Učební text. [online]. [cit. 2013-10-26] © 2012, Ostrava: VŠB-TU. 170 s. ISBN 978-80-248-2565-6 Dostupné z: http://www.person.vsb.cz/archivcd/FEI/MAD/
Odkazy na citace v textu Existuje několik metod, jak zapisovat odkazy na citace v textu. Všechny metody mají svá pro a proti. Doporučujeme metodu odkazování v závěrečných pracích volit na základě požadavků fakulty, popř. po dohodě s vedoucím práce: Harvardský systém - hojně používaná zejména v USA, známá také jako „metoda prvku a data“. Metoda číselných odkazů – metoda používaná především v přírodních a technických vědách. Metoda poznámek - často se kombinuje se seznamem zdrojů na konci dokumentu.
Odkazy na citace v textu Harvardský systém - hojně používaná zejména v USA, známá také jako „metoda prvku a data“ Pro studenty, kteří nejsou příliš zběhlí v práci v textovém editoru, je nejvhodnější metodou Harvardský systém, který nevyžaduje nastavování křížových odkazů či poznámek pod čarou. Navíc je hojně používán zejména v humanitních vědách. [4] Příklady: Citace v textu: Svět, realita je pojem příliš obecný a široký (Šarmanová, 2012, s. 7). Je-li jméno autora uvedeno přímo v textu, stačí do závorky uvést rok a stranu: Šarmanová (2001, s.31) se domnívá, že výsledky jsou nejednoznačné... Pak ZDROJE:
1. ŠARMANOVÁ, Jana. METODY ANALÝZY DAT - Učební text. [online]. [cit. 2013-10-26] © 2012, Ostrava: VŠB-TU. 170 s. ISBN 978-80-248-2565-6 Dostupné z: http://www.person.vsb.cz/archivcd/FEI/MAD/
Odkazy na citace v textu Metoda číselných odkazů - metoda používaná především v přírodních a technických vědách Metoda číselných odkazů má tu výhodu, že je možné v elektronické verzi práce, se rychle prokliknout na zdroj a není nutné scrollovat na konec textu. Tato metoda si žádá využití křížových odkazů a jejich pečlivou kontrolu. Je tedy z hlediska formátování náročnější, ale nejpoužívanější. [4] Příklad: Svět, realita je pojem příliš obecný a široký. [1] Pak ZDROJE: 1. ŠARMANOVÁ, Jana. METODY ANALÝZY DAT - Učební text. [online]. [cit. 2013-10-26] © 2012, Ostrava: VŠB-TU. 170 s. ISBN 978-80-248-2565-6 Dostupné z: http://www.person.vsb.cz/archivcd/FEI/MAD/
Odkazy na citace v textu Metoda poznámek v textu pod čarou - často se kombinuje
se seznamem zdrojů na konci dokumentu. Metoda poznámek nabízí čtenáři práce bibliografickou citaci přímo na konkrétní stránce pod čarou, což je velmi pohodlné. Nastavení poznámek pod čarou je navíc velice jednoduché. Na bibliografické citace odkazujeme pořadovým číslem poznámky. Číslo musíme odlišit od vlastního textu použitím horního indexu.1 Na druhou stranu se doporučuje uvedení abecedního seznamu bibliografických citací na konci dokumentu, takže uvádíte citace v dokumentu dvakrát, což je samozřejmě práce navíc. [4] V poznámce pod čarou, nebo na konci dokumentu, jsou bibliografické citace v pořadí, v jakém je na ně odkazováno v textu: 1. ŠARMANOVÁ, Jana. METODY ANALÝZY DAT - Učební text. [online]. [cit. 2013-10-26] © 2012, Ostrava: VŠB-TU. 170 s. ISBN 978-80-248-2565-6 Dostupné z: http://www.person.vsb.cz/archivcd/FEI/MAD/
Zásady k zapamatování autor vždy tiskacími písmeny, v invertovaném tvaru (= příjmení, křestní jméno, př. HÁVA, Petr) práce bez autora – pod prvním významovým slovem z názvu (v abecedním seznamu) – nikdy: Anonym; kolektiv autorů, apod. název zdrojového dokumentu vždy kurzívou (název knihy, název časopisu, název sborníku) každý údaj se odděluje diakritickým znaménkem u části dokumentu vždy stránka citace musí být úplná, přehledná a jednotná citujeme výhradně z primárních dokumentů zachováváme jazyk knihy [4]
Primární odpovědnost = autor/autoři Vždy ve tvaru: PŘÍJMENÍ, Křestní jméno.
Jeden autor: HÁVA, Petr. HÁVA, P.
Více autorů: HÁVA, P., MAŠKOVÁ, P., POTŮČEK, M. a kol. HÁVA, P. - MAŠKOVÁ, P. - POTŮČEK, M. a kol. HÁVA, P. (ed.). [4]
Podpora prostředí (http://www.citace.com) Možnost generování své citace dle normy ČSN ISO 690 a ČSN ISO 690-2. Přebírání záznamů od dalších uživatelů nebo zdrojů. Správa citací (úprava, třídět do složek, přidávání vlastních poznámek, obsahů, recenzí). Zpřístupnění záznamů prostřednictvím RSS kanálů, sdílení s jinými uživateli. Export záznamů do RTF pro Word a do HTML. [5]
PROSTOR PRO REGISTROVANÉ UŽIVATELE Administrace Moje citace Generování citací Import citací
Moje citace Nově vygenerované citace
Citace uložené do složek Moje citace ze staré verze portálu Moje RSS kanály Moje složky Nezařazené citace Složky vytvořené uživatelem [5]
VKLÁDÁNÍ ZÁZNAMŮ Vkládání záznamů do formuláře vybraného modulu http://www.citace.com/generator.php Povinná pole Nepovinná pole Interaktivní pole Přebírání záznamů od jiných uživatelů http://www.citace.com/hledat.php Přebírání záznamů ze souborného katalogu MU http://aleph.muni.cz/F/ [5]
PRÁCE SE ZÁZNAMY Úprava bibliografické citace (upravit) Přidávání detailů (detaily) Poznámky Obsahy Recenze Tagy Mazání Přesunutí do složek [5]
PRÁCE SE SLOŽKAMI Vytvoření nové složky Zveřejnění složky (zpřístupnění složky pro ostatní uživatele) Export složky Vytvoření RSS kanálu Další funkce Generování HTML kódu složky pro vložení do webové stránky Přejmenování Smazání [5]
Tvorba citací a analýza informací pro KP Zvolte klíčová slova pro Data Minig. Vyberte z prvních tří stránek vyhledávače nejlepší odpovídající dokument. Uložte jako text. Proveďte analýzu TextStatem. Výskyt klíčových dokumentujte grafem a vložte do KP. Doplňte citace všech dokumentů včetně grafiky v citace.com a uložte do KP.
Kontrolní otázky a úkoly samostudia
Otestujte své znalosti o Text Miningu dle prezentace a zdrojů. V rámci samostudia vytvořte citace dle zadání v prezentaci. Doplňte do KP základní statistiku Text Miningu. Dokumentujte grafem dle výsledků v Text Statu.
Zdroje – doplňující studijní literatura: 1. ŠARMANOVÁ, Jana. METODY ANALÝZY DAT - Učební text. [online]. [cit. 2013-10-26] © 2012, Ostrava: VŠB-TU. 170 s. ISBN 978-80-248-2565-6 Dostupné z: http://www.person.vsb.cz/archivcd/FEI/MAD/
2. Semanticka-analyza-textu-3. Http://fulltext.sblog.cz [online]. 2008 [cit. 2013-10-27]. Dostupné z: http://fulltext.sblog.cz/2011/09/22/semanticka-analyza-textu-3/ 3. TextStat. Http://www.stahuj.centrum.cz [online]. 2005 [cit. 2013-10-29]. Dostupné z: http://www.stahuj.centrum.cz/utility_a_ostatni/prace_se_soubory/por ovnavani/textstat/?g[hledano]=textstat&g[oz]=3.0 4. Bibliografické citace.
Samba.fsv.cuni.cz [online]. 2010 [cit. 2013-11-04]. Dostupné z: samba.fsv.cuni.cz/~tomandlo/JSM514/Bibliografické%20citace.ppt 5. Citace snadněji a rychleji. Https://is.jabok.cz/www [online]. 2010 [cit. 2013-11-05]. Dostupné z: https://is.jabok.cz/www/4106/495906/Citace_snadneji_a_rychleji.ppt