Analýza textu (text mining) pomocí vybraného softwaru
Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Vyšší odborná škola informačních služeb v Praze
Natalya Chernykh Analýza textu (text mining) pomocí vybraného softwaru Bakalářská práce
2012
Analýza textu (text mining) pomocí vybraného softwaru
Poděkování Ráda bych věnovala poděkování Ing. Stanislavě Hruškové Ph.D, za podporu a trpělivost při psaní této bakalářské práce.
Stránka 1
Analýza textu (text mining) pomocí vybraného softwaru
Prohlašuji, že jsem bakalářskou práci na téma Analýza textu (text mining) pomocí vybraného softwaru zpracovala samostatně a použila pouze zdrojů, které cituji a uvádím v seznamu použité literatury. V Praze dne 19. 12. 2012
Podpis
Stránka 2
Analýza textu (text mining) pomocí vybraného softwaru
Obsah:
1.
Úvod: ......................................................................................................................... 5
2.
Teoretická část. .......................................................................................................... 6 2.1
Podstata text miningu ......................................................................................... 6
2.2
Využití- uplatnění ............................................................................................... 9
2.3
Fáze textové analýzy: ....................................................................................... 10
2.3.1 Předzpracování dat (preprocessing) ................................................................ 10 2.3.2 Analýza textu .................................................................................................. 15 2.3.3 Extrakce – výsledek ........................................................................................ 20 3
Praktická část ........................................................................................................... 21 3.1
Předpokládaný postup ...................................................................................... 21
3.2
Postup analýzy textu ......................................................................................... 21
3.2.1 Vyhledání a sběr podkladů ............................................................................. 21 3.2.2 Kritéria pro výběr software ............................................................................. 22 3.2.3 Výběr vhodného softwaru pro analýzu textu .................................................. 24 3.2.4 Použitý hardware a software ........................................................................... 27 3.2.5 Předpříprava analyzovaného vzorku ............................................................... 28 3.2.6 Textová analýza .............................................................................................. 30 3.2.7 Zpracování zadané úlohy ................................................................................ 32 4.
Závěr ........................................................................................................................ 61
5.
Seznam citací: .......................................................................................................... 63
6.
Seznam použité literatury a internetových zdrojů:................................................... 67
7.
Seznam příloh........................................................................................................... 70
Stránka 3
Abstrakt:
Analýza textu (text mining) pomocí vybraného softwaru
Cílem práce je analyzovat vybraným softwarem 100 posudků bakalářských prací a pomocí textové analýzy odhalit nejčastější chyby studentů, které jsou v posudcích zmiňovány oponenty. Bakalářská práce v teoretické části popisuje podstatu text miningu a jeho využití v praxi. Dále je zde popsán a vysvětlen samotný proces text miningu, jeho fáze a metody. V praktické části jsou uvedeny dostupné nástroje pro analýzu textu a použitý hardware a software. Samotný průběh všech fází textové analýzy pomocí vybraného softwarového nástroje Statistica 10 je podrobně popsán a doplněn obrázky z grafického rozhraní programu a výsledky jsou srovnány s výsledky manuální analýzy. V závěru jsou shrnuty a zhodnoceny veškeré poznatky, které je možné vyvodit z výsledků analýzy softwarem a uvedeno, jaké výhody a nevýhody přináší text miningu v návaznosti na výsledek práce.
Klíčová slova: text mining, textová analýza, vyhledávání informací, extrakce informací, chyby
Abstract: The aim of this thesis is to analyze by selected software 100 opinions bachelor theses using text analysis software to detect the most common mistakes of students mentioned in opponents checks. Theoretical part of bachelor thesis describes the essence of text mining and its application in practice. Furthermore, there is explained and described text mining process itself, and the phases of this method. In the practical part of thesis describes available tools for text analysis and HW/SW equipment used for analysis The progress of all phases of text analysis using software tool Statistica 10 is described in detail and accompanied by screenshots from the graphical interface. Statistica 10 results are compared with the results of manual analysis. In conclusion are summarized and evaluated all the information that can be deduced from the results of the analysis software and shown the advantages and disadvantages that bringing text mining following the outcome of the work.
Stránka 4
Úvod:
Analýza textu (text mining) pomocí vybraného softwaru
V současné době, kdy drtivá většina dokumentů vzniká v elektronickém formátu, nabývají stále více na významu dovednosti a znalosti Business inteligence, mezi které patří i metody text miningu a data miningu. Právě text miningem a jeho konkrétním praktickým využitím se budu ve své práci zbývat. Téma analýza textu pomocí vybraného softwaru jsem zvolila z důvodu, že mě vždy zajímalo, zda je dostupný komplexní software, který by uměl analyzovat nejen samostatný textový soubor, ale i rozsáhlý vzorek textových souborů za účelem vyhledání nejčastěji se vyskytujících slov a slovních spojení, včetně synonym. Přínosná by byla i funkce obsahové analýzy, která poskytuje rychlý přehled o obsahu textového dokumentu bez nutnosti jej číst. Konkrétní zaměření, tedy předmět analýzy (100 posudků bakalářských prací), jsem zvolila proto, že je toto téma v souvislosti s bakalářskými pracemi vždy aktuální a často diskutované a správná interpretace analýzy bude zajisté přínosná nejen pro případné čtenáře této práce, ale bude mít nezanedbatelný vliv i na vlastní kvalitu vypracování bakalářské práce. Za cíl práce jsem si stanovila analýzu 100 posudků bakalářských prací vybraným text miningovým softwarem za účelem nalézt nejčastější chyby studentů při vypracovávání BP, respektive jaké chyby nejčastěji uvádějí vedoucí bakalářských prací. Tyto chyby budu následně systematizovat, přiřazovat k vyhledaným výrazům a slovním spojením synonyma a v závěru bude výstup komplexně statisticky popsán a výsledky zhodnoceny a shrnuty. Postup při řešení bakalářské práce bude chronologický. Po teoretickém zmapování problematiky, kde budou popsány principy text miningu, bude nalezen vhodný software pro analýzu vybraného vzorku posudků bakalářských prací. Kritéria na software budou stanovena tak, aby byl použitelný pro širokou skupinu uživatelů, měl by podporovat českou znakovou sadu, umět pracovat se synonymy a vyhledávat v textu pomocí různých metod. Další vedlejší kritéria budou specifikována v praktické části. V praktické části je rizikem, že nenajdu dostatečně vhodný software, který by splňoval všechny výše uvedené požadavky. Nicméně s touto alternativou počítám, a v případě, že software nebude dostatečně schopný obsáhnout všechny uvedené funkce, použiji pravděpodobně časově velmi náročné manuální statistické zpracování dat za použití standardního kancelářského softwaru (MS Excel). Manuální zpracování však bude následovat i po úspěšném použití softwaru, neboť je nutné pravdivost výsledků ověřit.
Stránka 5
Analýza textu (text mining) pomocí vybraného softwaru
Teoretická část.
2.1 Podstata text miningu Spolu s masivní elektronizací dokumentů ve všech sférách lidských činností začalo v letech nedávno minulých docházet k masivnímu nárůstu množství dat uložených v elektronické podobě. Přibližně 80 procent dat uložených v nejrůznějších databázích má podobu textu, je tedy v podobě nestrukturovaných dat.[36] Všechny tyto data jsou výsledkem práce webových vyhledávačů, blogů, různých anket, výzkumů, reakcí zákazníků, softwarových nástrojů, tedy jsou produktem jak přímé lidské činnosti, tak také činnosti různých robotů a strojů, kteří generují v reálném čase velké množství textových dat. Například internetové vyhledávače jako www.yahoo.com nebo www.google.com vygenerují denně tolik informací, že by z nich bylo možno sestavit několik milionů knih. Dalším příkladem může být počet emailů. Odhaduje se, že počet emailů, který projde denně všemi typy počítačových sítí je 62 miliard. [18] To jsou stovky gigabajtů textu. Informace obsažené obecně v těchto, tedy nejen rozesílaných, dokumentech, by se přitom daly vyjádřit mnohem stručněji, protože klíčová informace, kterou tyto dokumenty nesou je podstatně menší. Přečíst a manuálně provést analýzu tak obrovského kvanta dat je nemožné, avšak tyto textové informace v sobě obsahují zpravidla údaje, jejichž využití pomůže získat komplexní obraz o daném bodu zájmu a zvýšit v tomto směru také efektivitu rozhodování. Pro uživatele je proto nezbytné, aby ve všech nestrukturovaných textových informacích
uložených
na svých
serverech
neztratily přehled,
průběžně je
systematizovaly a samozřejmě také vytěžili prospěch z včasného získání dalších informací analýzou stávajících dat. Právě zde nastupuje na scénu text mining. “Text mining je metoda, která umí nestrukturovaná textová data zpracovat a poskytne nám stěžejní informaci obsaženou v textu dokumentu, setřídí dokumenty podle podobnosti bez toho, aby je musel někdo číst. Celý tento automatický proces bez potřeby lidských zdrojů je v současné době velmi žádoucí“. [36] Historie metody text miningu je poměrně krátká a logicky souvisí se samotnou existencí dat v digitální formě. Přibližně před čtyřiceti lety inženýři začali hledat způsob, jak propojit sbírky textových dokumentů pomocí počítačových technologií [17]. Položili tak základy vědecké disciplíně, která je známa jako počítačová lingvistika a je v současné době populární na mnohých univerzitách a různých výzkumných ústavech celého světa. Původně byla počítačová lingvistka čistě nekomerčně zaměřená na hledání Stránka 6
Analýza textu (text mining) pomocí vybraného softwaru
způsobů, jak roztřídit a prozkoumat obsah nejrůznějších textových dokumentů (odborné knihy a časopisy, soudní záznamy, noviny, reporty, patenty), které mohou být převedeny do elektronické podoby. V současné době je tento vědecký obor základním zdrojem informací a metod pro text mining, jako souhrnné označení systému dolování informací v digitální textové formě, které se skládá ze složitých lingvistických metod a kompletní sady nástrojů pokročilé analytiky a statistiky. Text mining se stal nejrozšířenější technologií při řešení úloh reálného světa, počínaje analýzou malých záznamů až k organizaci inteligentního vyhledávání a interpretaci tržních zpráv. Obor text miningu obecně spadá pod soubor data miningových metod, kde vznikl jako další odvětví data miningu, pokrývající požadavky po zpracování textů za souběžného vyhledání informací v nich obsažených. Důvodem separace text mining od data miningu je především skutečnost, že data mining má obecnější záběr, vyhledává a zpracovává informace i v číslech, nominálních a ordinárních proměnných, naopak text mining se specializuje výhradně na práci s nestrukturovaným textem. [30] [36] Formálněji by se text mining dal definovat následujícím způsobem. Text mining (textová analýza) nebo někdy může být alternativně nazýván data miningem je metoda netriviální automatické extrakce skryté, implicitní, předem neznámé a potenciálně užitečné a důležité informace z velkého množství „nestrukturovaných" a částečně strukturovaných textových dat pomocí kombinaci strojového učení, pokročilých statistických analýz, různých algoritmu, identifikace jádrových konceptů, postojů a trendů a následného použití této informace [30]. Výstupem jsou smysluplné informace. Pro upřesnění jsou v definici myšleny za neznámé informace ty, které zná autor dokumentu, ale současně nejsou pro ostatní implicitně viditelné. Nalezení těchto informací je tak velmi obtížným úkolem, který se často realizuje v souborech v celých souborech textů, kde se analyzují jejich vzájemné vazby a souvislosti. Další možnou definicí je popis text miningové metody jako proces objevování respektive získávání znalostí, který má za cíl identifikovat a analyzovat užitečné informace v textech, jež jsou důležité pro uživatele používajícího text miningový software [30]. Ten odhaluje propojení a vztahy ne pouze v rámci jednoho dokumentu, ale napříč celým spektrem dokumentů, se kterými v daný okamžik pracuje. Dokumentem pak může být například článek v odborném časopisu, nebo volné textové odpovědi v dotazníku s otevřenými otázkami, různé záznamy databáze, emailová korespondence, běžné články v novinách, ale i například judikatura. Prvořadou úlohou text miningu je převést nestrukturovaná textová data do strukturované podoby co Stránka 7
Analýza textu (text mining) pomocí vybraného softwaru
nejblíže tomu, jak by to udělal člověk, který by dokumenty četl. Tento softwarově strukturovaný výstup pak lze třídit a vybírat pomocí standardních data miningových metod. Častou mylnou představou je to, že text mining je prakticky to samé, co vyhledávání v textu. [18] Vyhledávací softwary postupují tak, že hledají informace v textovém materiálu chronologicky. To má za následek fakt, že abychom dospěli k požadovanému výsledku, musíme přesně vědět, co hledáme a také přesně formulovat otázku. Textová analýza používá přesně opačný postup. Logicky pak není ani potřeba, abychom přesně znali hledaný termín, naopak, text miningem se odkrývají slova (předměty) a slovní spojení (koncept) obsažené v těle dokumentů a následně se mapují vztahy mezi nimi. Tento rozdíl vyplývá už ze samotné podstaty vyhledávání, například na webu. Tam vyhledáváme věci, které známe, ale chceme si o nich zjistit další informace. Cílem text miningu je naopak získání informace nové, doposud neznámé. [18] Další s text miningem zaměňovanou metodou je data mining. Rozdíl je ten, že text mining zpravidla vychází ze přirozeného jazyka, tedy volného textu a data mining ze strukturovaných dat. [22] To ovšem nevylučuje kombinované použití data miningu a text miningu, kdy si data miningem vypomáháme při samotné analýze již strukturovaných dat. Případně ještě dochází ke kombinaci analýzy strukturovaných a nestrukturovaných
dat
současně.
Příkladem
může byt
zpracování
dotazníků
s otevřenými a uzavřenými otázkami, kdy na otevřené dotazy je použit text mining, a na uzavřené otázky data mining. Takovéto komplexní zpracování dává vždy nejlépe použitelný výstup. Další aplikací kombinovaného použití data miningu a text miningu může být vyhledávání trendů v sérii numerických dat a následně vyhledání možných důvodů pro tento vývoj v časových sériích textových dokumentů. [3] Na text mining se nahlíží převážně jako na činnost skládající se ze tří částí. [30] První část procesu se nazývá popsat jako předzpracování textových dokumentů. Vstupní dokument je převeden do určité standardizované podoby, takzvané mezilehlé polohy, se kterou se dále pracuje. Ve druhé fázi se získávají znalosti, které jsou odvozovány z mezilehlé polohy a následně se analyzují. Třetí fázi je pak export dat získaných v druhé fázi do srozumitelné formy, jako grafy tabulky křivky apod. Tolik stručně k částem procesu text miningu. Podrobně budou jednotlivé části ještě rozebrány níže, a to jak v teoretické, tak praktické části bakalářské práce.
Stránka 8
Analýza textu (text mining) pomocí vybraného softwaru
2.2 Využití- uplatnění
Využití a obory uplatnění text miningu jsou široké. Své uplatnění nachází při nejrůznějších analýzách zákaznických dat, například záznamů z call center, dále pak při organizaci a inteligentním vyhledávání v klíčových tržních zprávách, reportech atd. V praxi se prokázalo, že použití text miningu zřetelně přineslo výsledky v širokém spektru komerčních firemních aplikací. Velkým přínosem je vylepšení CMR (Customer Relationship Management), kdy nabízí všestrannější pohled na zákazníky, jejich přání a preference, který vede k následnému efektivnějšímu marketingu, prodloužení životnosti vztahu zákazníka a firmy a v neposlední řadě taky k větší spokojenosti zákazníka a tím také vyšším ziskům firmy. Data pro text mining se získávají jak standardními postupy, tak jsou odebírána prostřednictvím online nástrojů, jako výzkumy nebo data web 2.0 interactions, která se následně využívají i pro brand monitoring. Dalším využitím, jak již bylo stručně zmíněno, je analýza odpovědí otevřeného průzkumu. Pomocí text miningu lze v odpovědích objevit soubory slov nebo fráze používané respondenty při hodnocení kladů a záporů daného produktu, služby nebo značky. Otevřené odpovědi, přestože jsou náročnější na zpracování, ve výsledku dávají kvalitnější a přesnější výsledky. Hlavním důvodem je prostor daný respondentovi pro vyjádření svého stanoviska, kdy není omezen hranicemi nebo možnostmi, jak odpovědět. Jeho odpovědi jsou utříděny ex post pomocí text miningového nástroje. Dalším uplatněním je off-line analýza. Jedná se o hledání souvislostí v historických dokumentech všeho druhu, ať se jedná o sledování konkurence, reakcí na marketingové kampaně, nebo i politické situace a regionálních informací. Všechno toto nachází uplatnění v oborech PR marketingu, Call Center Analytics,
Social media
analytics, Market inteligence a ostatních oborech převážně Business Inteligence. Text mining slouží k vytvoření co nejlepšího přehledu o stavu konkurence a následnému vytěžení konkurenční výhody. To už je ovšem záležitostí marketingovou. Zkoumaní konkurence ve smyslu business intelligence, takzvaný web crawling, spočívá v analýze webových stránek konkurentů pomocí text miningového nástroje/softwaru. Takto automatizované zpracování obsahu webu konkurence slouží jako velmi efektivní způsob získání základních i podstatných informací o obchodních nabídkách a aktivitě konkurentů. Prozkoumáním webových stránek konkurenta lze automaticky odvodit pojmy z dokumentů, které jsou na dané stránky volně k dispozici. Tím lze určit nejen zaměření společnosti, ale i například akční nabídky společnosti, nabízené produkty a podobně. [30] Stránka 9
Analýza textu (text mining) pomocí vybraného softwaru
Text mining našel využití i ve spam filtrech. Emaily jsou automaticky zpracovávány a filtrovány třízeny. Třídění nemusí být pouze na skupiny nevyžádaná pošta (SPAM) a běžná emailová komunikace. Filtr příchozí pošty je možno ve větších společnostech nastavit tak, že je pošta nekonkrétně adresovaná pošta (např.
[email protected]) filtrována dle odborů nebo oddělení, do kterých jsou poté filtrem adresována. Toto velmi pomáhá zaměstnanců a preventivně předchází zahlcení poštovních schránek nevyžádanou nebo nesprávně adresovanou poštou. Prakticky slouží jako
určitá
bariéra
příchozích
emailů,
která
dovoluje
odfiltrovat
případně
s automatickou odpovědí vrátit emaily, kde je použit například nevhodný jazyk. Pro vícejazyčné instituce může bezchybně třídit poštu a přeposílat ji na pracovníky komunikující v tom či onom jazyce. Textová analýza může pomoci odhalit slabé a silné stránky produktu. Tomuto účelu slouží analýza reklamací nebo pojistných škod, obecně analýza otevřených textů z komerčních sfér. Aplikací text miningového algoritmu jsou příslušná data zpracovány a výstupem mohou být třeba nejčastější závady, stížnosti nebo důvody vrácení zboží. Toto jsou jenom některé příklady toho, kde se textová analýza uplatňuje. Každým dnem jsou uskutečňována další nová použití a vylepšována stávající. Soukromoprávní i veřejnoprávní korporace si bohatství skryté v textové informaci jednoduše nemůžou dovolit přehlížet.
2.3 Fáze textové analýzy: 2.3.1 Předzpracování dat (preprocessing) 2.3.1.1 Účel předzpracování Textová analýza je poměrně komplikovaný proces. Nejdříve je potřeba data získat a následně upravit. Samotná příprava a převedení textových dokumentů do normalizovaného formátu je rozhodující pro úspěšnou analýzu. Předpříprava textu může být jak velmi rychlá (normalizovaný export z databáze), nebo může naopak zabrat více času, než samotné zpracování dat. V současné době se již společnosti provádějící text miningovou analýzu z vnitřních zdrojů snaží tento proces prakticky eliminovat tím, že již předem dokumenty před uložením na firemní server normalizují, reporty jsou vždy ve stejném formátu a i zaměstnanci mají jednoznačnou instrukci, v jakém formátu data ukládat. Horší variantou je množství souborů uložených v různých formátech, jako MS Word, PDF, XPS, HTML a XML. Může se jednat jak o jednotlivé textové soubory, případně tabulky, ale vyskytují se situace, kdy analyzovaným vzorkem je celá databáze Stránka 10
Analýza textu (text mining) pomocí vybraného softwaru
nebo datový sklad. Některé univerzálnější systémy jsou schopny pracovat s více typy souborů, ale specializované zpravidla vyžadují přesně definovaná data (jak typově, tak co se týče kódování). Dále je důležitý i jazyk, ve kterém je jazyk vytvořen. Syntaktická analýza prvků je kategorizována snad nejsložitějším a stále vyvíjejícím se algoritmem, který je aplikován na každý jazyk samostatně a v některých jazycích nelze ani účinně použít. [33] Dále je důležité i kódování dokumentu. V praxi to znamená dokument překódovat do požadované znakové sady. Dále mezi obecnější faktory ovlivňující předpřípravu dat pro analýzu je kategorizace textů, oblasti zájmu uživatelů nebo požadovaná úroveň expertízy. Hlavním cílem předzpracování je získat strukturovaný vzorek textu z původních nestrukturovaných textových dat. Nyní k jednotlivým krokům první fáze předzpracování dat, a sice procesu stemizace/lemmatizace. 2.3.1.2 Způsoby-metody předzpracování: Stemizace\Lemmatizace V českém jazyce dochází ke skloňování slov celkem do sedmi pádů. V textu se logicky spousta slov nachází v různých tvarech a nezáleží, zda jde o pády slov, nebo jednotná a množná čísla, či slovesa v minulém, přítomném nebo budoucím čase. Při použití nejprimitivnějšího hledání (například CTRL+F v MS Word) a zadání slova strom program najde tvary strom, stromy stromu a bude se fakticky shodovat s výsledkem text miningového softwaru. Ale v případě, že vyhledáváme slovo sůl nebo dům, pomocí CTRL+F nalezneme pouze první pád těchto podstatných jmen, tvary soli, domu nebo domy nám zůstanou skryté a značnou měrou se podepíší na objektivitě výsledků. Příčinou toho je implementace stemizace nebo lemmatizace do text mineru. Jednoduše řečeno text miner pak převádí každé slovo na základní tvar a následně při zadání úlohy nalezne v dokumentu a zohlední ve výsledku všechna slova v základním tvaru. Přetrvávajícím problémem je to, že existují slova se stejným kořenem, která mají přesto rozdílný význam (ucho, oko atd.). Stemizace (stemming) je založena na tom, že algoritmus očistí slovo od předpon, přípon a koncovek, kdy výsledným tvarem je kořen, který ovšem nemusí být platným slovem, respektive jazykovým tvarem. [20] Lemmatizace směřuje ke stejnému cíli, ale jinými prostředky. Lemmatizátor vyhledává nebo vytváří v databázi programu k jednotlivým slovům takzvané lemma, což je základní gramaticky tvar, který najdeme ve slovníku. Podstatná jména jsou převedena na první pád jednotného čísla, přídavná jména na první pád jednotného čísla Stránka 11
Analýza textu (text mining) pomocí vybraného softwaru
mužského rodu prvního stupně v rámci stupňování a slovesa na infinitiv. Například slovní spojení “nejmodřejších květin“ je převedeno na “modrá květina“. Lemmatizaci využívají také vyhledávače, z českých například Jyxo nebo Morfeo [33] [40] Lemmatizace a stemizace se tak liší svou podstatou, nikoli však samotným účelem. Výhodou stemizace je, že ke své funkci nepotřebuje slovníkovou bázi a není také závislá na její kvalitě. Problémem ovšem je, že dvě různá slova mohou být převedena na jeden stejný stem. Výsledkem použití těchto metod je vyšší počet výsledků (nalezení relevantního výrazu ve všech tvarech) a současně zmenšení velikosti analýzy zajištěné odstraněním redundance (slova v různých tvarech jsou vnímána jako jedno slovo, ne jako více výrazů). Závěrem je vhodné dodat, že obě metody mohou být implementovány do softwaru současně, tedy je použit algoritmus podpořený slovníkovou bází. [20] Lemmatizace a stemizace se využívá pro vyhledávání ve fulltextových databázích. Tento proces probíhá za využití různých počítačových programů, které se obecně označují jako morfologické analyzátory. Pro český jazyk lze využít morfologický analyzátor Ajka, pro angličtinu pak The Porter Stemming Algorithm, nebo lemmatizací slovníky postavené na Ispell a WordNetu. [37] Při vhodném výběru text mineru software sám během analýzy provede celý proces (například program SAS), nebo se používá metoda vytvoření frekvenčních slovníků (program Statistica 10). Metoda vytvoření frekvenčních slovníku “Frekvenční slovník (frequency dictionary)- Speciální jazykový slovník, v němž se uvádí četnosti výskytu slova nebo jiné lingvistické jednotky ve stanovené oblasti jazykové komunikace, zejména frekvence základní slovní zásoby“ [36] [26] Vytvoření frekvenčního slovníku je relativně časově náročná činnost. Je třeba začít obecný vyhledáváním nejčastějších slov v textu pomocí softwaru. Programů je na tuto činnost dostatek, například RextStar nebo AntConc. [11] Při sestavování slovníku narážíme na dvě zásadní otázky, které je třeba zohlednit, a sice jaká a kolik slov analyzovat. Celá procedura výběru slov do slovníku je složitější, než vypsání nejčastějších nebo nejdůležitějších slov. Čeština je plná velmi ohebných slov, proto je vhodnější vybrat ne jednotlivé nejčastější slova, ale slovní základy neboli lemmata. To se provede převedením nejčastějších slov na slovní kořeny a teprve poté se zjišťuje počet výskytů těchto kořenů. [15] Stránka 12
Analýza textu (text mining) pomocí vybraného softwaru
Vytvořeni slovníku synonym
Dalším nezbytným krokem v první fázi očištění dat je vytvořeni slovníku synonym. Nahrazení slov synonymem je často užívanou technikou plagiátorů pro zakrytí okopírovaného textu. Z tohoto důvodu je jedním z nutných nástrojů pro textovou analýzu slovník lexikální databáze, který umožňuje shlukovat (nacházet podobné) slova podle jejich významu. Taková struktura umožňuje uživateli např. spojovat slova podobného významu pomoci nalézání synonym. Mít takový slovník je potřebné z toho důvodu, že ve volném textu je docela častým jevem to, že se objevují slova, které mají vzájemně odlišný tvar, ale v podstatě stejný význam. To má za výsledek častou redundanci dat a příliš rozsáhlý výstupní seznam klíčových slov. Tomu zabraňují v programu integrované slovníkové soubory, obsahující většinu slovních významu, které se v textu můžou zaměňovat. V případě absence takového slovníků (nebo v případě nepodporovaní jazyka), různé textové analyzátory nabízejí uživatelům možnosti vytváření vlastního slovníků synonymu (podobné vytvářeni frekvenčního slovníků), což velmi časově náročná práce, ale lze nalézt spousta připravených slovníkových souborů, které jsou přístupné běžným uživatelům na webu (bohužel převážně v anglickém jazyce). “Pokročilejší variantou slovníku synonym je normalizace slov metodou zobecnění významu slova, to znamená využití hyperonym. Hyperonymum je nadřízené slovo označující obecnější pojem jiného slova. Hyperonymum nahrazuje slovo obecnějším pojmem. Příkladem je nahrazení slov „pes“ a „kočka“ za slovo „zvíře“. Tenhle postup nahrazuje slova zdola. Jestliže je něco hruškou a jablkem, pak to musí být také ovocem;
Při zobecňování slov se na požadovanou úroveň dostaneme
průchodem několika úrovní. Například k slovu „kočka“ vedou slova „objekt“, „živoucí entita“, „zvíře“, „obratlovec“, „savec“ a „kočkovitá šelma“. Což bude postup zdola nahoru a je to opakem hyperonyma zvané hyponymum.“ Text převzat z [40] Hyponymum postupuje směrem od obecnějšího významu k samotnému slovu. K tomuto účelu lze použit Word Net tezaurus, který mimo jiné obsahuje hyperonymické odkazy. [39] Vytvoření Stop listu – negative dictionary Další procedurou první fáze je vytvoření stop listu, jindy nazývaného jako negativní slovník. Stop list je seznam slov, které nenesou žádnou významnou informaci, zpravidla se jedná o spojky, předložky a části modálních sloves, případně varianty slovesa “být“.
Během aplikace stop listu dochází k mazání těchto pro analýzu Stránka 13
Analýza textu (text mining) pomocí vybraného softwaru
irelevantních slov. Většinou se používá již vytvořený stop list pro určitý jazyk, ale není to pravidlem. Na webu lze najít velký počet již hotových stop listů, které obsahují standardní seznam spojek, předložek atd., které lze dále upravit pro individuální potřebu při té či oné analýze. [25] Nahrazování čísel Dalším, s čím je nutné se v některých případech vypořádat, je nahrazení čísel textem. Textové dokumenty docela často v sobě nesou informaci v podobě čísel, a právě tyto čísla mohou být těsně spojité s informací, kterou hledáme. [22] Zpravidla k tomu dochází při kombinaci data minignu a text miningu během analýzy rozsáhlé databáze, kde je důležité najit vztah čísel a volného textu. Pokud se jedna o volný nestrukturovaný text, nejde na analýzu použít data mining a současně většina textových analyzátoru nepozná v textovém řádku číselnou hodnotu. “Bud ji nepřečte, nebo přeskočí jako hodnotu, která nenese v sobě význam. Proto je třeba použit metodu nahrazování čísel, která je jednou z technik předpracovaní textu. Tato technika převádí číselné hodnoty na text. Zůstává pouze informace o existenci čísla, nikoli jeho hodnotě.“ [40] Převedení dokumentů do jednotného formátu Skutečným problémem dnešní doby je celková roztříštěnost formátů a platforem, ve kterých jsou dokumenty ukládány. Nejedná se již pouze o notoricky známé formáty .doc, .PDF, .xml, .html, .txt, .rtf nebo .odt, ale i další exporty dokumentů například do formátů, které jsou dnes masivně využívané primárně ve čtečkách knih. Kvůli nim je vytvářen nespočet dalších, ne zrovna kompatibilních formátů, jako .epub, .fb2, .djvu, .azw, .opf, .tr2, .tr3 nebo .aeh. Samotné analýze tak musí předcházet převedení dokumentů do jednotného formátu. V případě, když je analyzován jeden dokument, by k žádným potížím s formátováním nemělo dojit. Problém vzniká až v případě zpracování několika dokumentů v různých formátech. Pokud databáze souborů pro analýzu obsahuje několik různých formátů dokumentů, muže dojít k chybě při zpracování dokumentů zamítnutí/přerušení spouštění procesu analýzy, případně program některé formáty prostě nepřečte a přeskočí, což logicky vede ke ztrátě významných informací a tím také k oslabení relevantnosti výsledků. Abychom se vyhnuli těmto potížím, dokumenty se před analýzou převádí na jednotný program pomocí on-line nástrojů, případně specializovaných programů. Ale i tak může docházet k chybám, mezi nejčastější v případě češtiny patří problémy s diakritikou u převedeného textu. Znaky jsou často Stránka 14
Analýza textu (text mining) pomocí vybraného softwaru
vzhledem k použití nejednotného kódování u .PDF nahrazeny různými, pro češtinu neznámými symboly. Těmto problémům lze předejít odstraněním diakritiky z textu ještě před jeho převodem. Během zpracování textových dokumentů docela často nastává situace, že textový analyzátor neumí zpracovat text v českém jazyce kvůli diakritice. Důvodem je to, že v sobě nemá integrovanou českou znakovou sadu. Často při převedení dokumentu do jiného formátu a na výstupu dostaneme textový dokument s rozrušenou diakritikou. V takových případech je potřeba z dokumentu dostat text bez diakritických znamének bud‘ manuálně, záměnou znaku za písmena bez diakritiky, nebo pomoci speciálních programu, případně online programu, obsahující funkce, které nahradí vybrané znaky za písmena bez diakritiky (http://webs.webpark.cz/stránky/diakritika.htm). Existují i další možné úpravy textu ve stadiu předzpracovaní. Demonstrativní výčet je následující (Převzato z [24]): •
kontrola pravopisu
•
filtrování termínů
•
oprava e-mailu poškozeného přeposíláním
•
převod textu na malá či velká písmena
•
oprava textu vzniklého omylem zapnutým Caps Lockem
•
získání čistého textu z kódu webové stránky
•
vytvoření typograficky správného textu v HTML
2.3.2 Analýza textu Druhou a nejvíce podstatnou fází textové analýzy je automatické analyzování nestrukturovaných textových dokumentů, získávání strukturované informace z daného dokumentu a její následný rozbor. Zkráceně v této části dochází k analýze předzpracovaného dokumentu a vygenerování termů. “Termem se rozumí základní prvek, kterým jsou jednotlivá slova nebo sousloví, které slouží k analýze.“ [30] Objevení různých zákonitostí v textu a existence softwaru, který automatizuje proces odhalení takovýchto zákonitostí a poskytuje možnost hledání klíčových slov, rozpoznání druhu a obsahu textu nebo vytvoření stručného shrnutí dokumentu (abstraktu), aniž by byla potřeba ho číst. Prostředí textového analyzátoru je velmi různorodé a existuje množství různých způsobů dolování dat z textu. Text může být tak roztříděn podle témat, která danou oblast reprezentují, nebo mohou být vyhledána klíčová slova, případně může být vytvořen souhrn textu. Tato Stránka 15
Analýza textu (text mining) pomocí vybraného softwaru
fáze umožňuje roztřídit a transformovat nestrukturované informace do smysluplné podoby. Výběr vhodného způsobu analýzy, typ a podoba získané informace jsou velmi závislé na tématu zadaného požadavku. Nástroje k dosažení výsledků text analýzy jsou různorodé, například: text categorization (kategorizace textu), document clustering (shlukování dokumentů), document filtering, (filtrování dokumentů) duplication detection (detekce duplikace), information extraction (extrakce informací), text summarization (sumarizace textů) atd. 2.3.2.1 Jednotlivé úlohy analýzy textu Kategorizace textů (Text categorization) Text categorization, česky nazývaná prostým překladem kategorizací textů je úkol zadaný softwaru, který určuje druh dokumentů podle obsahu, tématu, názvů nebo klíčových slov, a poté je organizuje, to znamená, třídí dokumenty do předem definovaných kategorií (např. politika, ekonomika, sport) [12] [29] Každý text může být přiřazen výlučně do jedné kategorie, nebo také k více kategoriím, případně nezařazen nikam. Typicky je toto provedeno pomocí četnosti výskytu slov v textu, nebo klasickou metodou roztřídění podle stejného názvu dokumentu. Kategorizace textů může být použita pro takový typ dokumentů, jako novinové články, emaily, webové stránky atp. Automatické detekce tématu dokumentu může být využito při správě rozsáhlých úložišť, při eliminaci nevyžádané pošty nebo pro odfiltrování stránek nevhodného obsahu (například pomocí rodičovského filtru na PC). Tuto úlohu lze využít i při analýze webového průzkumu nebo reklamací, kdy software sám roztřídí typ odpovědí na kladné, záporné a irelevantní, případně podle dalších znaků. Příslušné oddělení se pak efektivně zabývá pouze odpověďmi, které mají informační hodnotu a nad ostatními neztrácí čas. Shlukování textů (text clustering) Jedním z dalších způsobů analýzy je identifikace textových dokumentů pomocí shlukové analýzy. Lze říci, že shlukování textů je proces seskupování dokumentů na základě vzájemné podobnosti. Jeden z prvních, kdo tento pojem nazval, pokusil se definovat a také poprvé použil, byl Kalifornský profesor psychologie R. C. Tryon. Ten v roce 1939 publikoval knihu Shluková analýza. Pojem definoval takto: “Shluková analýza je obecný logický postup formulovaný jako procedura, pomocí níž seskupujeme objektivně jedince do skupin na základě jejich podobností a rozdílností.“[35] Stránka 16
Analýza textu (text mining) pomocí vybraného softwaru
Shlukovou analýzou textů rozumíme proces, který používá různé algoritmy k uspořádání a sloučení dat s podobným významem do skupiny (shluku). Praktickým výsledkem je dělení všech dokumentů na skupiny, ve kterých jsou shlukovány nejvíce podobné dokumenty podle jejich příbuznosti obsahu a zadaných parametrů. Shluková analýza zabezpečuje, aby v jednotlivém shluku byly zařazené dokumenty co nejvíce podobné, a současně také, aby jednotlivé shluky byly co nejvíce odlišné od shluků ostatních. “Cílem shlukové analýzy je tak rozlišení množin (clusterů), ve kterých je podobnost s jinými clustery minimální, a současně vnitřní podobnost clusteru maximální.“[17] Ze samotné podstaty shlukové analýzy je zřejmé, že každý analyzovaný dokument musí být zařazen do jedné skupiny. Pokud je pro rozlišení použit obsah dokumentů, pak různé skupiny korespondují s různými náměty a tématy obsaženými v tomto souboru dokumentů (k identifikaci námětu/ tématu skupiny shlukové nástroje používají slova, která jsou běžná v dokumentech dané skupiny).
Obrázek 1 - převzat z [36]
“Obrázek ukazuje jednotlivé textové záznamy (dokumenty, formuláře, žádosti atd.), které byly podrobeny analýze. Záznamy, které jsou mimo hlavní shluk, se nějakým způsobem od většiny dokumentů odlišují, a proto by jim mělo věnovat pozornost“. [36] Shlukování textů je do jisté míry podobné textové kategorizaci, popsané v předchozím odstavci. Rozdílem je, že proces kategorizace dokumentu dokumenty roztřídí do předem stanovených skupin, naopak text clustering jednotlivé dokumenty na základě vzájemné podobnosti a klíčová slova extrahuje přímo z textu. Problémem se může ukázat, že vytvořené kategorie na základě náplně dokumentu nemusí vždy logicky odpovídat kategoriím, tak jak by je vytvořil člověk. Potom se stává to, že sportovní výsledky mohou spadat do stejné kategorie jako například ekonomické ukazatele, protože obsahují nadprůměrné množství čísel. Proto je také nutné, aby s text minerem pracoval odborník a zadával mu co nejkonkrétnější příkazy. Pro správnou operaci Stránka 17
Analýza textu (text mining) pomocí vybraného softwaru
existují speciálně vyvinuté algoritmy, kterými se ovšem nebudu zabývat, neboť práce není matematicky zaměřená. Analýza sentimentu Analýza sentimentu (sentiment analysis) člení dokumenty podle emočního obsahu do třech skupin: pozitivní (positive), negativní (negative) a neutrální (neutral). Během člověkem vytvořeného textového záznamu pracuje software podle citově zabarvených slov, případně podle toho, jaká slova obecně jsou použita v dokumentu. Analýzou textu lze usoudit mnoho informací o autorovi, nejen jeho postoj, ale i věk, pohlaví, myšlení, postoj k adresátovi, nebo do určité míry i vzdělanost. Většinou se hodnotí sentiment podle použití expresivních slov – pokud jsou použita nadprůměrně, jsou následně rozdělena mezi pozitivní a negativní a stejně tak je definován text. Pokud je jejich výskyt v nízké míře, je text kategorizován jako neutrální. [5] Shrnutí textu Dalším způsobem analýzy může být shrnutí textu, tedy text summary. Tato analýza se velmi dobře uplatní, pokud se zpracovává rozsáhlý textový dokument v krátkém čase. Manuálně všechen text přečíst a porozumět mu je občas mimo časové možnosti. Právě pomocí automatického nástroje text miningu
lze vytvořit shrnutí
originálních rozsáhlých dokumentů, případně shrnovat uživatelem nastavené části (sekce, odstavce). [21][16] Princip shrnování textu je, že software skenuje text pomocí metody summary extraction a z daného dokumentu vybírá nejdůležitější části – důležitost je zpravidla definována uživatelem, ale není to podmínkou. Definice probíhá tak, že uživatel stanoví takzvané koncepty, kterými jsou regulární výrazy nebo gramatická pravidla a dle nich pak text miner prohledá všechny dokumenty. Takovýto postup je vhodný za předpokladu, že víme, co je pro nás důležité a nechceme číst velké množství textu, abychom zjistili co nejvíce informací o oblasti zájmu. [34] Software tak najde požadované informace automaticky a výstupem bude smysluplná informace vytěžená s rozsáhlého textového dokumentu. Konkrétním příkladem softwaru může být třeba SAS text summarization. [27] Existuje ještě jeden podobný způsob shrnování textu. Jedná se o summary abstraction. Tato metoda poskytuje lepší výsledky, text je hlouběji analyzován, kdy na základě jeho sémantické reprezentace je parafrázován obsah. Problémem je však, že se
Stránka 18
Analýza textu (text mining) pomocí vybraného softwaru
jedná o čistě strojovou úpravu a výsledné generování souvislého textu není na takové úrovni, aby dosahovalo srozumitelnosti výstupu po použití text summary. [16] Extrakce informací Pojem extrakce informací většinou znamená převedení nestrukturovaného nebo částečně strukturovaného textu do strukturované podoby. Obecně se tak jedná o princip předzpracování, ale může být i jednou z metod samotné textové analýzy. V tomto smyslu nabývá zcela jiný význam, sice spočívá v identifikace jednotlivých klíčových komponent v textu a jejich vzájemných vztahů. Z textových dokumentů jsou tak extrahovány předem specifikované informace a ty jsou následně organizovány. Poté je generován strukturovaný soubor informací, se kterým lze vykonávat další operace. [30] “Celý tento proces funguje na principu skenování textu za účelem nahrazení určitých slov a výrazů takzvanými “nálepkami pojmu“. Poté již se jen odkazuje na tyto nálepky pojmů a získávají se strukturovaná data. Pro celý proces je klíčové, aby v textu bylo možné rozpoznat jména lidí, organizací, míst atd.“ [19] Extrakce konceptů; rozpoznání pojmenovaných entit “Tento způsob extrakce určuje entity k různým variacím pojmenování entity. Pokud bude například v článku zmíněn americký prezident, pak i jeho jméno, případně pojem prezident USA bude přiřazen stejné entitě. Zpracování těchto výrazů je jedním z největších problémů při zpracování přirozeného jazyka. “ (Labský, Svátek, 2007) [19] [30] Určení vztahu mezi entitami Po správném určení entit následuje další složitý úkon. Na základě analýzy vět a rozpoznání entit lze definovat a rozpoznat vztahy mezi entitami. [30] Pokud se v textu objeví informace, že Dagmar Veškrnová se vdala za Václava Havla, pak je text miner schopen definovat entitu prezidentovy manželky, nebo správně zařadit Dagmar Havlovou do této entity. Současně již zůstane definován vztah mezi těmito dvěma enenitami, tedy prezidentem a jeho manželkou. S touto problematikou také souvisí rozpoznání jmen (name recognition). Nejedná se pouze o jména osob, ale i o geografické lokace, společnosti a organizace, jména produktů, umělecká díla, sportovní kluby, skupiny, atd.). Správné použití rozpoznání jmen je klíčové, protože v textu se často software potýká se s problémem mnohoznačnosti, a na rozdíl od člověka slovo tak snadno logicky nepřiřadí pod správnou skupinu, případně entitu. [23] Stránka 19
Analýza textu (text mining) pomocí vybraného softwaru
Automatická identifikace jazyka dokumentu
Úkolem této procedury je specifikace jazyka, ve kterém je dokument napsán. Toho je možné dosáhnout vybudováním tabulek se specifikovanými frekvencemi pro konkrétní jazyk charakteristickými frekvencemi dvojic, či trojic písmen. [30] Problematické jsou pro tento typ zpracování krátké soubory, kde dochází k velké odchylce těchto frekvencí, které tvoří podklad pro korektní určení jazyka. Jiným, spíše mechanickou metodou může být implementace slovníků a následné porovnání dle rozličných kritérií jako slovníkové fráze, gramatika nebo diakritika. Automatické rozdělení dokumentu Poslední úlohu pro text miner, kterou bych ráda zmínila je automatické rozdělování dokumentů. Jedná se o jednoduchou úlohu, při které se dokument dělí na kapitoly nebo odstavce pomocí softwaru. Samozřejmě kritérií rozdělení je více, dokumenty se dělí například podle tříd na nezajímavé a zajímaví, respektive vyžádané vs. spam. [30] Dalšími možnými úlohami text miningu může být rčení autora dokumentu, identifikace témat, automatický překlad dokumentu nebo detekce duplicitních případně hledání podobných dokumentů. 2.3.3 Extrakce – výsledek Jedná se o proces poskytnutí požadovaných výsledků, který může mít rozličné podoby. Extrakce tak může znamenat zařazení dokumentu do kategorie, poskytnutí abstraktu dokumentu, naplnění tabulky daty, vytvoření seznamu klíčových slov, grafu a podobně. Způsob výstupu je zpravidla definován uživatelem a současně závisí na použitém softwaru. Některé softwarové nástroje nabízí po výstupu možnou úpravu (doladění, upřesnění) mezivýsledku, a poté následuje řetězec dalších analýz nad poskytnutým výstupem. Tak lze například po úloze sumarizace textu nechat shrnutý text nechat zanalyzovat na největší frekvenci výskytu jednotlivých výrazů, poskytnuty výstup nechat roztřídit a exportovat do grafů. Způsoby extrakce jsou natolik různorodé, že je vhodné se jimi zabývat až v praktické části v souvislosti s výsledkem.
Stránka 20
Analýza textu (text mining) pomocí vybraného softwaru
3 Praktická část 3.1
Předpokládaný postup
Praktickou část začínám shrnutím postupu k řešení zadání práce. V první řadě je nutné sehnat data na analýzu, konkrétně posudky bakalářských prací. Před stažením je nutné správně vybrat relevantní posudky (kritériem byl rozsah textu v posudku obsažený, jinými slovy to znamená, že byly vyřazeny velmi stručné posudky). Dále je nutné posudky předpřipravit pro analýzu vzhledem k tomu, že se vyskytovaly v nejednotných formátech (.PDF a .doc). Asi nejsložitějším úkolem je vybrat vhodný software pro textovou analýzu. Předpokládám, že samotné testování vhodného softwaru spolu s předpřípravou dat a ověřením manuální analýzou textu zabere nejvíce času bakalářské práce. Tímto softwarem bude následně vytvořen veškerý výstup uvedený níže. Následovat bude manuální analýza softwaru za použití klasického kancelářského softwaru Excel 2010 od společnosti Microsoft.
3.2
Postup analýzy textu
3.2.1 Vyhledání a sběr podkladů Podkladem pro analýzu jsou posudky bakalářských prací studentů oboru podnikových informačních systémů na fakultě FIS Vysoké školy ekonomické v Praze. Jedná se o veřejně dostupné dokumenty přístupné na serveru www.sks.cz. Zde je nutné vybrat pouze posudky, které jsou obsahově rozsáhlejší a neobsahovaly pouze prostou informaci, zda jsou doporučeny k obhajobě, či nikoli. Takto stručné posudky byly pro analýzu irelevantní, neměly vzhledem k účelu analýzy žádnou informační hodnotu, a proto byly z vzorku analyzovaných posudků vyřazeny. Zbyly tak pouze posudky, které obsahovaly obsáhlejší komentář k chybám v práci, což nevylučuje, že u určitého procenta posudků se vyskytoval i převážně pozitivní komentář s několika drobnými připomínkami. Po tomto předběžném posouzení bylo staženo 130 souborů o celkové velikosti cca 11MB. Jedná se o soubory ve formátu Portable Document Format (PDF) a MS Word document 97-2003 (doc). Co se týká jejich stáří, jednalo se o dokumenty vzniklé v rocích 2009, 2010, 2011 a 2012, přičemž majoritně byl zastoupen rok 2009. Jazykem dokumentů byla ve sto procentech případů čeština. Po následné drobné korekci bylo pro analýzu použito celkem 126 posudků bakalářských prací. (Příloha č. 1). Zadaným cílem práce bylo sice analyzovat 100 posudků, ale použití většího počtu (126) se mohlo na Stránka 21
Analýza textu (text mining) pomocí vybraného softwaru
práci odrazit pouze pozitivně, neboť s rostoucím analyzovaným vzorkem vždy úměrně narůstá přesnost výsledků. 3.2.2 Kritéria pro výběr software V této fázi práce bylo nutné stanovit základní kritéria pro výběr vhodného softwaru, jak pro předpřípravu dat, tak pro samotnou analýzu i pro ověření získaných výsledků. Software musel být přizpůsoben hardwarovým možnostem s důrazem na osobní použití při standalone počítači. Obecnými požadavky tak byly: 3.2.2.1 Dostupnost softwaru Možnost stažení zdarma jako open-source software, případně jako trial verzi. Existovala zde i možnost použití placeného softwaru s univerzitní licencí a v případě neúspěchu všech ostatních možností zakoupení softwaru placeného. To ovšem bylo zpočátku poslední možnou cestou, ale nakonec se u softwaru pro analýzu ukázalo jako nezbytné 3.2.2.2 Podpora hardwaru a OS Druhým kritériem byla podpora nejnovějšího operačního systému Windows 8 se současnou podporou nejnovějšího hardwaru. Nejnovější operační systém sám o sobě nebyl vzhledem k jeho velmi dobré zpětné kompatibilitě překážkou funkce instalovaného softwaru, jako větší problém pro potencionálně vhodný software se jevila domácí edice systémů (Windows XP Home edition nebo Windows 7 Home premium). Na těchto korektně nefungoval komplexní softwarový balík SAS, který striktně vyžadoval vzhledem k rozšířeným síťovým funkcím prostředí Windows XP Professional nebo Windows 7 Professional a Windows 8 Pro zatím oficiálně nepodporoval. Windows XP v obou dostupných edicích se jevil jako celkově nevhodný a zastaralý, vzhledem ukončení podpory ze strany výrobců hardwaru a nemožnosti instalace na PC, který byl k dispozici. 3.2.2.3 Snadnost instalace Veškerý použitý software by měl být snadno instalovatelný bez pokročilých znalostí uživatele nebo nutnosti odborné instalace specialistou. Software by také neměl potřebovat doplňkovou instalace množství dalších prostředí (prostředí Jboss nebo Java), pokud ho samotná instalace nebude obsahovat. Neměl by také vyžadovat uložení analyzovaných dat na serveru (SAS)[27], neboť by to pro běžného uživatele znamenalo prakticky nepřekonatelnou překážku. Na druhou stranu software musí obsahovat Stránka 22
Analýza textu (text mining) pomocí vybraného softwaru
dostatečné množství modulů pro analýzu textu a nebýt příliš jednostranně zaměřený. Zjednodušeně řečeno má být dostatečně všestranný a schopný a zároveň snadno ovladatelný. 3.2.2.4 Podpora českého jazyka Čtvrtým kritériem byla podpora českého jazyka, respektive české znakové sady. Z důvodu nedostatku českých lokalizací softwaru jako nutnost nebyla nakonec považována podpora uživatelského rozhraní v češtině, ale pouze implementace češtiny jako jazyka, který je možno analyzovat. V krajním případě pak bylo možné použít software bez podpory českého jazyka ale s možností vytvoření uživatelského slovníku. V této části je nutné také zmínit software pro předpřípravu dokumentů. Ten musel zvládat bezpodmínečně českou diakritiku, aby po převedení analyzovaného vzorku nedošlo k narušení analyzovaného textu o neznámé a nesmyslné znaky. 3.2.2.5 Analýza velkého vzorku dokumentů Pro úspěšné zvládnutí zadaného tématu bylo nutné analyzovat poměrně rozsáhlý soubor dat. Množství freewaru nebo trial verzí bylo omezeno na počet analyzovaných souborů, počet znaků nebo objem analyzovaných dat. Trial verze poté další analýzu podmiňovaly zakoupením. Zde byl vyřazen veškerý freeware i drtivá většina trial verzi, neboť ani zde nebylo dostatečně jasné, zda by byly po případném zakoupení vhodné pro zbytek požadavků. 3.2.2.6 Další kritéria výběru vhodného softwaru Mezi další kritéria na software patřila analýza různých druhů typů souboru, prioritně samozřejmě .doc a .PDF. Program by tak musel bezchybně převést text s českou diakritikou, případně diakritiku odstranit a následně zpracovat. Toto se ve finále ukázalo jako přehnaný požadavek, protože se všemi ostatními kritérii dostupný vzorek softwaru natolik snížil, že od tohoto požadavku bylo upuštěno. Poměrně důležitým požadavkem byla také implementace případně použití slovníků, ať již morfologického, případně tezauru. Postačovala i možnost vytvoření seznamu synonym a stop listu. Vzhledem ke zvolení metody spolu výskytu slov a frekvenční analýzy vybraný software musel tyto metody podporovat. Neméně důležité bylo také intuitivní ovládání programu. Pokud program měl strohé grafické rozhraní a byl ovladatelný pouze prostřednictvím příkazového řádku, pak nemělo smysl s ním pracovat. Podstatou této práce bylo vhodně vybrat a analyzovat vzorek dokumentů a ne se naučit ovládat jakýkoli profesionální text miner s nesrozumitelným rozhraním a extrémním množstvím Stránka 23
Analýza textu (text mining) pomocí vybraného softwaru
příkazů. Postup tímto směrem by byl velmi časově náročný, proto software nesplňující toto kritérium byl okamžitě vyřazen ze seznamu potenciálně použitelných. Posledním vedlejším kritériem se týkalo samotného výstupu softwaru. Ten by měl být dále zpracovatelný, exportovatelný k dalšímu zpracování a přehledný. 3.2.3 Výběr vhodného softwaru pro analýzu textu Z nabídky softwarových nástrojů po aplikaci kritérií na výběr vhodného softwaru zbyl poměrně malý vzorek. Ideálním softwarem by jen teoreticky byl speciální software vytvořený v rámci tohoto konkrétního projektu, ale jeho použití je naprosto nereálné z důvodu velké finanční náročnosti. 3.2.3.1 Volně dostupný software Většinou se jedná o programy vyvíjené na univerzitách v rámci odborné praxe nebo online programy. Často jde také o implementaci jediné metody, která byla vyvinuta autorem programu. Slabou stránkou těchto programů je absence technické podpory a mizivá perspektiva dalšího vývoje. Jediným plusem, který zbývá, je jejich dostupnost zdarma a schopnost zpracovat český vstup.
Takových programů bylo
nalezeno nejvíce. Bohužel většinou se jedná o “málo funkční“ programy, specializující se pouze na jeden způsob práce s textem a jsou prakticky nevyužitelné pro rozsáhlé zpracování textu. Příkladem mohou být následující softwarové aplikace: Software COOA Software vytvořený Martinem Hájkem (Fakulta sociálních věd, Univerzita Karlova v Praze), který vznikl v rámci řešení výzkumného projektu. [15] Je uvedeno, že je volně dostupný, bohužel chybí informace, kde a jak je možné si software opatřit. [9] Online pomůcka dostupná z http://textalyser.net/ Použitelná pro hledání spolu výskytu slov, frekvence slov, umí použít stop list, ale bohužel nezvládá zpracovat velký objem dat. Analýza textu NTX hledaní spolu výskytu slov, frekvence slov, používaní stop listu, zvládá zpracovat velký objem dat, ale trial verze nezanalyzuje vice než 300 prvních slov. Zakoupení plné verze nezaručovalo jeho úspěšné použití, proto od něj bylo upuštěno. [1] Stránka 24
Analýza textu (text mining) pomocí vybraného softwaru
3.2.3.2 Univerzální data miningový software s rozšířením o text miner. Další kategorií je univerzální data miningový software. Na trhu se vyskytuje malý počet speciálních programů určených konkrétně pro potřeby text miningu. Tyto programy jsou převážně integrovány do data miningovych programu jako speciální modul, respektive rozšířeni funkce data miningového programu o další funkce. Jsou zpravidla nezávislé na úloze, přizpůsobivé pro různé typy datových zdrojů a umožňuji hladký export celého řešení. StatSoft – STATISTICA 10 Prvním z těchto softwarů je STATISTICA Data Miner od společnosti StatSoft [31], který poskytuje k základní instalaci volitelný rozšiřující modul pojmenovaný jednoduše STATISTICA Text Miner [32]. Software patří mezi ty nejvýkonnější a nejkomplexnější nástroje dostupné na trhu. Podporuje nejmodernější technologie, jako zpracování více vláken, proto pracuje na odpovídajícím hardwaru (multi-core CPU) velmi rychle. Podporuje import dokumentů hned v několika formátech, zahrnující soubory typu .txt, .pdf, .ps, .html, .xml a podporuje i většinu formátů Microsoft Office ( .doc, .rtf, .xls). Program nabízí flexibilní možnosti uživatelského prostředí, umožňují výběr velkého počtu souborů (celou složku nebo několik složek). Analyzované dokumenty mohou být předzpracovány dříve, než proběhne indexování samotné indexování, nebo současně s ním. V průběhu procesu mohou být aplikována pravidla pro vyloučení daných slov – stop list. Ten je možné jak manuálně vytvořit, tak i použít vestavěný v případě podpory daného jazyka. Software používá také dalšími algoritmy pro úpravu textu, konkrétně stemizaci. Software podporuje poměrně velké množství vstupních jazyků (dánština, holandština, angličtina, francouzština, němčina, italština, portugalština, španělština a švédština), ale český jazyk bohužel nepodporuje. Naštěstí díky výše zmíněné stemizaci lze s úspěchem použít i na jiné jazyky. Tato vlastnost se stala hlavním pozitivem tohoto softwaru a rozhodla o jeho použití při zpracování bakalářské práce. SAS Text Miner Druhým v této kategorii je známý software SAS společnosti SAS Institute, konkrétně jeho komponenta SAS Text Miner [27]. SAS je předním světovým dodavatelem řešení a služeb Business Analytics. Výhodou softwaru je skutečná všestrannost softwaru a možnost použití zdarma v rámci akademické licence. Jako nevýhodu, která zabránila jeho použití pro potřebu bakalářské práce, vidím jednoznačně Stránka 25
Analýza textu (text mining) pomocí vybraného softwaru
instalaci. Ta je velmi složitá s množstvím síťových nastavení, protože SAS je primárně určen pro práci v síťové infrastruktuře typu klient – server. Velká většina nástrojů tak nefunguje na standalone počítači a pro využití SAS Text mineru je nutné, aby v síti běžel SAS databázový server. Instalace použitelná v rámci akademické licence tak dovoluje pouze spuštění klienta SAS Text mineru, které skončí nemožností přihlásit se na server, kde by byla uložena analyzovaná data. IBM Smart Analytics Dalším ze skupiny univerzálních softwarů je IBM Smart Analytics System, který teoreticky umožňuje integrovanou analýzu strukturovaných i nestrukturovaných dat. Podporovány jsou standardní modely vytěžování dat (klastrování, přidružení, klasifikace či predikce) Integrace schopnosti vytěžování dat v rámci databáze do existujících systémů nabízí rozšiřitelnou prediktivní analýzu a analýzu vzorců s vysokou účinností bez nutnosti přesunu dat do autorizovaných platforem pro vytěžování dat.[18] Bohužel ani tento nemohl být pro potřeby bakalářské práce využit. Pro aktivaci text minigových úloh vyžadoval vytvoření projektu. Zjednodušeně řečeno to znamená, že zadání vstupních dat bylo podmíněno vytvořením projektu, ale trial verze dovolovala pouze import dokumentů MS Excel a několika dalších různých tabulkových databází, tedy již strukturovaných dat. Pro dodání nestrukturovaných textových software oznámil, že je třeba mít oprávnění, což neznamenalo nic jiného, než mít zakoupenou licenci. Při ceně licence řádově ve stovkách až tisících USD jeho použití nepřipadalo dále v úvahu. Weka Weka (z anglického Waikato Environment for Knowledge Analysis, tedy waikatské prostředí pro analýzu znalostí) je populární balík programů strojového učení napsaný v Javě, vyvinutý na University of Waikato, Nový Zéland. Weka je open-source software dostupný podle General Public License (GNU)[38]. Výhodou je stoprocentní podpora češtiny, ale jedná se spíše data miningový nástroj. I když má implementovanou funkci text analytics, jsou její možnosti analyzovat text omezené, nehledě k obecné pomalosti aplikací používajících prostředí Java. Software zvládá pouze text categorisation a extraction, dále je schopen třídění textu podle tématu a vytváření tříd podle klíčových slov[4]. Tyto nástroje jsou pro zpracování textu pro potřeby bakalářské práce nedostatečné.
Stránka 26
Analýza textu (text mining) pomocí vybraného softwaru
RapidMiner - Text Processing Extension
Tento data miningový software s text miningovou nadstavbou se vyskytuje ve dvou verzích. První z nich je Community edition, která je dostupná zdarma ve formě open‐source a je poskytována bez jakýchkoli záruk. Druhou verzí je Enterprise edition, která je placená, poskytována se zárukou včetně podpory ze strany výrobce. Software je pravděpodobně velmi výkonný, ale jeho uživatelské prostředí je tak nepřívětivé, že se analýza vzorku prakticky rovná konfiguraci funkcí prostřednictvím příkazového řádku a bez placené podpory ze strany výrobce by práce s ním byla prakticky nemožná. Vzhledem k časové náročnosti samotného ověření, zda by byl schopen dané úlohy zvládnout byl z okruhu potencionálně použitelných softwarů také vyloučen. [26] Text Analyst firmy Megaputer Intelligence a PASW Text Analytics 13.0 Další software, který připadal teoreticky v úvahu pro zpracování vzorku posudků bakalářských prací. Tyto programy jsou ovšem opět placené a také velmi úzce zaměřené a poměrně složité. Proto jak již bylo uvedeno výše, jako vítězný software po aplikaci kritérií vyšel softwarový balík společnosti StaSoft Statistica ve verzi 10. 3.2.4 Použitý hardware a software Poněkud v předstihu zde zmíním dostupný hardware a vybraný software, který byl nakonec použit pro řešení praktické části bakalářské práce. Co se týká hardwarové výbavy, byl použit Ultrabook Samsung U530 založený na platformě Intel Sandy Bridge, vybavený procesorem Intel Core i5 2467M se současným zpracováním 4 programových vláken. Osazený byl pamětí RAM 4GB DDR3 a pro ukládání dat byl vybaven pevným diskem o velikosti 500GB a SSD diskem o velikosti 16GB. Použitým operačním systémem byl Windows 8 Pro. Zde je na místě uvést, že downgrade na starší Windows 7 by nijak nerozšířila použitelný software, znamenala by pouze navýšení nákladů. Na tomto hardwaru byl použit pro potřeby bakalářské práce následující software: •
Adobe Acrobat X (kontrola dokumentů)
•
Kancelářský balík Microsoft Office 2010 (kontrola dokumentů, ověření, zpracování výsledků)
•
PDF to Word (předpříprava)
•
´Convert Doc´ (předpříprava) [8]
•
Azazel no-diakritik 2.0 (předpříprava) [2]
•
StaSoft Statistica 10 (text mining) [31] Stránka 27
Analýza textu (text mining) pomocí vybraného softwaru
3.2.5 Předpříprava analyzovaného vzorku
Předpříprava, jak je již známo, spočívá v přípravě zpracovávaného vzorku pro použití daným softwarem. Vzhledem k faktu, že StaSoft Statistica 10 nepodporuje český jazyk, bylo nutné učinit dva základní kroky za účelem normalizace dokumentů pro zpracování. Teoreticky by sice stačilo provést krok druhý, a sice odstranění diakritiky, ale pro celkové usnadnění práce byl zvolen dvojfázový proces spočívající na převedení analyzovaných dokumentů na jednotný formát a poté odstranění diakritiky. 3.2.5.1 Konverze dokumentů na jednotný formát a úprava diakritiky V první fázi byly dokumenty převedeny na jednotný formát. Samotný proces se pak skládal ze dvou kroků. V prvním kroku bylo nutné eliminovat dokumenty ve formátu .PDF, které vzhledem k použití různých open-source nástrojů pro export z originálního formátu (pravděpodobně .doc nebo .rtf) jevili značnou roztříštěnost v kódování. Při pokusu přímo zpracovat některé dokumenty ve formátu .PDF softwarem Statistica 10, který češtinu přímo nepodporuje, tak docházelo k jevu, že některá z písmen s diakritikou byla nahrazena nesmyslnými znaky. Z tohoto důvodu bylo nutné se diakritiky zbavit. Tomu muselo tak logicky předcházet převedení na formát, který bude jak zpracovatelný nástrojem pro odstranění diakritiky, tak samotným text minerem. Konverze dokumentů Na výše uvedený počítač byl po otestování několika freewarových nástrojů nakonec nainstalován software s podporou českého jazyka PDF to Word, kterým byly posudky bezchybně převedeny do formátu MS Office Word (.doc). Tím ovšem sjednocení vstupního formátu nekončilo. Po nepříliš úspěšném testování zhruba desítky nástrojů pro odstranění diakritiky bylo přistoupeno k další konverzi. Softwarem ´Convert Doc´ [8] byly posudky BP převedeny do formátu prostého textu, tedy .txt, ze kterého šla snadněji nejen odstranit diakritika, ale byl i příznivější pro samotné zpracování text minerem. Statistica 10 vykazuje při zpracování prostého textu daleko nejvyšší rychlost, než je tomu při zpracování ostatních typů souborů. Odstranění diakritiky Druhou, po konverzi již velmi snadnou fází bylo odstranění diakritiky ze vstupních textů. Pomocí nástroje Azazel no-diakritik 2.0 [2] byla ze všech textů tvořících vstup pro text miner odstraněna diakritika. Tímto byly dokumenty kompletně připraveny na import do text miningového softwaru. Stránka 28
Analýza textu (text mining) pomocí vybraného softwaru
3.2.5.2 Příprava text miningového softwaru
V předpřípravné fázi bylo také nutné připravit software, kterým byla následně provedena analýza. Ta se skládala ze dvou kroků a týkala se především zavedení českého jazyka, respektive vylepšení jeho podpory. Import českého stop listu Jak již bylo v teoretické části popsáno, vytvoření stop listu je nedílnou součástí přípravy analýzy, jinak by nedošlo k odstranění pro analýzu irelevantních slov a ve výsledku i ke zkreslení výsledku. Stop list bylo nutné vyhledat mezi stop listy vyskytujícími se volně online, protože vestavěný předefinovaný stop list obsažený v jedné z uživatelských složek softwaru nebyl k dispozici v českém jazyce. Z vybraného staženého stop listu [25] byla také odstraněna diakritika také pomocí nástroje Azazel no-diakritik 2.0. Samotným importem stop listu práce se stop listem neskončila. Bylo nutné ho operativně rozšířit o některá slova, která se vzhledem k charakteru analyzovaného vzorku vyskytovala velmi často, přesto neměla na výsledek analýzy žádný význam. Tak došlo k přidání výrazů jako problém, potřeba, výhody, výhrady atd. (Příloha č. 3) Vytvoření frekvenčního slovníku a slovníku synonym Software bylo také nutno připravit vytvořením slovníků za účelem správné činnosti. Hlavním důvodem nezbytnosti tohoto kroku byla nenativní podpora češtiny ze strany text mineru. Frekvenční slovník se ale nakonec neukázal jako věc nezbytně nutná, protože implementovaná stemizace si velmi dobře poradila i s českým jazykem což jen potvrdilo uvedené teoretické výhody popsané v teoretické části. Vytvoření slovníku synonym naopak bylo nezbytnou nutností, protože sebelepší text miner nenalezne v cizím jazyce synonyma, pokud je nemá předem definovaná. Tak byl za použití thesauru vytvořen slovník synonym. Celý proces byl poměrně složitý a časově náročný a souvisel i s vytvořením stop listu. Posudky byly text minerem skenovány za účelem nejčastěji se vyskytujících slov. Část z nich byla vyřazena do stop listu a k ostatním byly nalezeny tezaurem alternativy, respektive synonyma. Pokud se už v seznamu synonyma nacházela, byla přiřazena k sobě navzájem. Tím vznikl pro účely bakalářské práce dostatečný slovník synonym a bylo možné započít samotnou hlavní fázi práce, a sice analýzu. (Příloha č. 3)
Stránka 29
Analýza textu (text mining) pomocí vybraného softwaru
3.2.6 Textová analýza
Po fázi předpřípravy se dostáváme k jádru celé práce, ke kterému směřovaly veškeré předchozí činnosti. Dokumenty pro analýzu i software byl připraven a bylo možné přistoupit k analýze a vytvoření výstupu pomocí softwaru Statistica 10. [31] Ještě před samotným podrobným popisem celého procesu by bylo vhodné popsat použité metody a samotný princip práce text mineru. 3.2.6.1 Použité metody Jako základ pro dolování z textů byly použity celkem tři metody, které budou popsány níže. Metoda shlukování slov “Je všeobecně více než dobře známo, že různí lidé pro popis totožných konceptů nepoužívají stejná slova ani stejná slovní spojení.“ Proto může být výhodné sloučit slova stejných nebo podobných významů do skupin [23] Nejjednodušší způsob shlukování slov je na základě výše popsané stemizace nebo lemmatizace. Vzhledem k použití softwaru Statistica 10 připadá v úvahu jen stemizace, tedy umístění do jedné skupiny slov se stejným kořenem. Teoreticky to nemusí to vždy znamenat, že by v jedné skupině byla slova se stejným významem, protože existují slova různých významů, která jsou i v původním textu různě zapsaná, ale mají stejný kořen. Morfologická informace u slova může být tak v tomto případě stemizací nenávratně ztracena. Samozřejmě i přes tyto drobné nedostatky bylo výhodné stemizaci provést. Shlukování termů je možné dovést ještě dále, a to pomocí thesauru nebo jiného slovníku, což bylo prakticky také provedeno. Thesaurus je slovník podobných slov, přičemž podobnost nemusí znamenat jen synonymii, ale např. i antonymu, hypo/hyperonymii, mero/holonymii apod. U takových shluků je však problém nejednoznačnosti ještě markantnější než u stemizace či lemmatizace. “Pravých synonym takových, jak je definuje Frege (výraz A je synonymní s výrazem B, jestliže lze oba výrazy v libovolné větě zaměnit a nezmění se tak její význam) je bohužel velmi málo, proto se běžně za synonymní výrazy považují i takové, které mají stejný význam jen v některých kontextech. Zde vzniká hlavní zdroj nejednoznačností, které mohou vést dokonce ke snížení celkové úspěšnosti klasifikace. Proto je třeba thesaurus tvořit s ohledem na tyto skutečnosti.“ [23]
Stránka 30
Analýza textu (text mining) pomocí vybraného softwaru
Metoda sledování spoluvýskytů slov
“Technikou, jak zviditelnit struktury textu v korpusu, je sledování spoluvýskytů vybraných slov. Obecný princip je popsán např. Daganem [10] V originálním pojetí je sledování spoluvýskytů slov lingvistickým nástrojem ke zjištění jejich významu. Slova vyskytující se v podobných kontextech mají i příbuzný význam“ [14], [23] Tato metoda zde byla použita jako podpůrná k metodě shlukování slov. Frekvenční analýza textů Frekvenční analýza textu zde byla využita trochu v méně typické úloze, než bývá běžně použita. Její standardní účel je najít nejfrekventovanější slova a následně tato slova přiřadit k tématu, ke kterému se zpravidla k tématu vážou [23]. Pro účely bakalářské práce však nebylo nutné frekventované výrazy řadit k tématu, neboť téma bylo předem známé. Tak byla využita pouze první část této metody, a sice vyhledání nejfrekventovanějších slov za účelem samotného zjištění, jaká slova případně slovní spojení se vyskytují v posudcích bakalářských prací nejčastěji. Tím byla úloha frekvenční analýzy vyčerpána. Zde je na místě zmínit, že tato oproti původní poněkud okleštěná metoda, byla jádrem celé analýzy textů. Úloha zbylých dvou metod byla nezanedbatelná, avšak nelze je označit jako metody hlavní. 3.2.6.2 Architektura text miningového softwaru Pro dostatečné pochopení problematiky praktické práce s text minerem je vhodné si osvětlit práci text miningového programu. Architekturu obecného systému pro získávání znalostí z textu lze teoreticky rozdělit do několika částí. [30] První je předzpracování textu. První fáze zahrnuje všechny operace sloužící jako příprava textu pro další zpracování jádrem systému. Především se jedná o strukturování původní formy textu, extrakci klíčových slov a vytvoření nové reprezentace dokumentu. Může také obsahovat metody, které k dokumentu připojí pro další zpracování důležitou přídavnou informaci, jako časové razítko nebo zdroj dokumentu. Předpříprava může být vykonána částečně i manuálně v případě jazykové či jiné nekompatibility softwaru, ale samozřejmě pojem předzpracování se nekryje s pojmem předpřípravy, zmíněným v textu výše. Po dokončení softwarového předzpracování jsou data předána softwarovému jádru. To je srdcem celého systému a zahrnuje algoritmy, které se bezprostředně podílejí na dolování dat z textu. Software hledá vztahy mezi dokumenty a jednotlivými entitami, určuje druh textu (klasifikace a shlukování dokumentů), určuje Stránka 31
Analýza textu (text mining) pomocí vybraného softwaru
sentiment, shrnuje textu apod. Jak bude vstupními dokumenty pracováno, definuje sám uživatel softwaru. S ovládáním softwaru bezprostředně souvisí prezentační vrstva. Ta zahrnuje nástroje, které uživatelům prezentují znalosti získané z jádra systému a umožňují prostřednictvím ovládacích prvků ovlivňovat činnost systému. Do této kategorie řadíme bezpochyby grafické uživatelské rozhraní (GUI), vizualizační nástroje a editory pro zadávání příkazů. 3.2.7 Zpracování zadané úlohy Po poměrně jednoduché instalaci softwaru Statistica 10 přichází na řadu samotné spuštění tohoto programu. Grafické rozhraní programu je moderní ve stylu Ribbon (obr. 2), známé ze dvou posledních verzí Microsoft Office (2007 a 2010), nebo z nového průzkumníka souborů ve Windows 8. S uživatelem komunikuje sice v anglickém jazyce, ale při současné všeobecně dobré znalosti angličtiny to není překážkou.
Obrázek 2
V grafickém rozhraní se dá velmi rychle orientovat, proto není problémem najít data miningovou kartu, která nabízí širokou paletu především data miningových nástrojů, ale i možnost text miningu se Obrázek 3
zabudovanou podporou web crawlingu (obr. 3).
Obrázek 4
Stránka 32
Analýza textu (text mining) pomocí vybraného softwaru
Po spuštění text miningového nástroje se otevře průvodní okno a možností nastavení konfigurace práce text mineru. Záložka rychlých voleb (Quick viz obr. 4) nabízí základní definici vstupních dokumentů. První možností je vložit strukturovaná data v podobě tabulky, například ve formátu MS Excel. Tuto možnost nepoužijeme, protože žádná strukturovaná data nemáme k dispozici (textová data strukturovaná nejsou). Samozřejmě tato možnost tu je, ale týká se spíše úloh z oblasti data miningu (obr. 5).
Obrázek 5
Pro import námi vybraných dokumentů
zvolíme
druhou
možnost. Statistica 10 nabízí dvě možnosti
importu
dokumentů.
Jednak
import
dokumentů
uložených
na
pevném
či
výměnném disku počítače nebo přístupných prostřednictvím sítě LAN (horní část obrázku 6), tak zadání webové adresy pro web crawling dokumentů uložených na konkrétním, definovaném
uživatelem webovém
serveru
(spodní část obrázku 6). Obrázek 6
Stránka 33
Analýza textu (text mining) pomocí vybraného softwaru
V případě
použití
web
crawlingu
si
software umí zjistit všechny soubory .html, .htm, .xml a další obsažené na serveru a použít je pro analýzu (obr. 7). Tuto možnost ovšem používat nebudeme, neboť soubory jsou
již
v předpřipravené
podobě
na
pevném disku počítače. Obrázek 7
Možnosti web crawlingu by ovšem bylo možné použít v případě, že by na
serveru sks.cz byly k dispozici posudky BP v méně roztříštěné podobě a současně by software podporoval český jazyk. Velmi efektivně by tuto funkci softwaru šlo například, kdyby předmětem analýzy byly abstrakty BP v anglickém jazyce. Ty by šlo přímo analyzovat. My se ale budeme věnovat analýze souborů uložených na pevném disku počítače. V dialogovém okně programu tedy klikneme v horní části na tlačítko umožňující přidání souboru, vybereme složku s předpřipravenými posudky BP ve formátu prostého textu, označíme všechny pomocí CTRL+A a přidáme je jako analyzovaný vzorek (obr. 8). (Příloha č1)
Obrázek 8
Stránka 34
Analýza textu (text mining) pomocí vybraného softwaru
Dokumenty jsou tak připraveny k přidání, k definitivnímu zahrnutí do analýzy dojde po kontrole přidaných dokumentů a potvrzení přidání tlačítkem OK (obr. 9).
Obrázek 9
Konfigurace softwaru Statistica 10 Dokumenty tedy jsou úspěšně označeny a připraveny k analýze a následuje další krok, kterým je podrobná definice parametrů text miningu v záložce dialogového okna “advanced“ (obr. 10) a následujících. Zde se nastavuje jazyk stemizace. Jak už bylo několikrát zmíněno, software Statistica 10 nepodporuje český jazyk, proto byla ponechána volba jazyku na defaultní angličtině. I při tomto nastavení fungovala korektně, což bude zřejmé z výsledků uvedených níže. Dále se na kartě pokročilých nastavení nachází nastavení omezení slovníku indexovaných slov spolu s omezením použité paměti pro indexaci dokumentů. Všechny volby byly nechány na přednastavených hodnotách, které se jevily pro účely této konkrétní analýzy jako optimální.
Obrázek 10
Stránka 35
Analýza textu (text mining) pomocí vybraného softwaru
Následuje nastavení karty s označením “words“, v překladu slova/termy (obr. 11). Zde se zavádí dokumenty v prostém textu pro usnadnění práce text mineru.
Obrázek 11
Prvním, co by mělo být zavedeno, jsou fráze/sousloví, které pak pro další analýzu považuje software za jedno slovo. Zde jsem na zkoušku zavedla zkrácený seznam frází v testovací podobě (např. pravopisné chyby, gramatické chyby), ale nakonec se při práci se softwarem ukázalo, že algoritmus tohoto text mineru si dovede fráze sjednotit sám v případě, že se v analyzovaných dokumentech často vyskytují. Od vytváření a zavedení komplikovaného seznamu, který se více hodí pro konkrétní hledání v textu, tak bylo nakonec upuštěno. Toto bude ještě šířeji popsáno ve výsledcích analýzy. (Příloha č. 4) Naopak nezbytností, kterou nelze ignorovat, je zavedení stop listu. Na tomto místě byl do softwaru zaveden, během předpřípravy vytvořený, již popsaný modifikovaný stop list (obr. 12). (Příloha č. 1)
Obrázek 12
Stránka 36
Analýza textu (text mining) pomocí vybraného softwaru
Obrázek 13
Dalším krokem na této kartě bylo zavedení seznamu/slovníku synonym, který byl vytvořen také v průběhu předpřípravy (obr 13).
(Příloha č. 3)
Program nabízí ještě
možnost zadání listu hledaných slov. Jednoduše řečeno, slova, která jsou do programu importována prostřednictvím tohoto seznamu, budou hledána, a žádná jiná slova už hledána nebudou. Tato možnost nachází své použití v případě, kdy hledáme něco konkrétního, to znamená, že víme přesně, co hledáme. To ovšem není případ, kdy jsou analyzovány posudky bakalářských prací a není předem známo, co v nich bude konkrétně nalezeno. Proto tato možnost v případě naší analýzy zůstává nevyplněna. Po nastavení importu dokumentů se dostáváme k dalším kartám s možnostmi nastavení. Karta “project“ obsahuje nastavení ukládání výsledků v rámci projektu, kde je možné buď uložit práci do nového souboru, nebo použít stávající (obr. 14).
Obrázek 14
Stránka 37
Analýza textu (text mining) pomocí vybraného softwaru
Předchozí karta není z hlediska text miningu důležitá, na rozdíl od karty “filters“ (obr. 15), která do značné míry ovlivňuje výsledek práce. Je zde možné nastavit minimální a maximální délku výrazu, který bude software považovat za slovo, tzn., zohlední v analýze. Dále jdou definovat vlastnosti stemu, a sice minimální délka stemu a počet samohlásek v něm obsažených. Nalezneme zde i upřesňující atributy pro analyzovaná slova, která se týkají počtu po sobě jdoucích hlásek. Lze nastavit maximální počet po sobě jdoucích samohlásek, souhlásek, stejných písmen a interpunkčních znamének. Cokoli bude ve výrazu vybočovat z takto daných mezí, způsobuje bezprostředně vyloučení slova z analýzy. Závěrem nutno zmínit, že veškeré toto nastavení zůstalo nastaveno defaultně, tedy beze změn.
Obrázek 15
Obrázek 16
Konfigurace programu pokračuje natavením karty “characters“ – písmena (obr. 16). Na tomto místě lze definovat, jaká písmena ve slově obsažená jsou dovolená a jaké může být první a poslední slovo. Toto nastavení tak dovoluje snadné přidání jazyka
Stránka 38
Analýza textu (text mining) pomocí vybraného softwaru
prostým přidáním písmen s interpunkcí, ale v praxi se moc neosvědčilo. To byl také jeden z důvodů, proč se pracovalo s texty bez diakritiky. Poslední kartou v nastavení analýzy je karta “delimiters“, tedy něco jako omezovače nebo oddělovače (obr. 17). Toto nastavení nebylo použito, přesto že by za určitých podmínek vedlo k naprosto přesnému výsledku. Stačí si představit standardizovaný formulář, který by obsahoval chronologicky kategorie “silné stránky“, “slabé stránky“ a “doporučení k obhajobě“. Pak by postačovalo jako startovní frázi zadat “silné stránky“ a jako závěrečné “slabé stránky“. Ihned by byl zpracován přesný výstup, který by analyzoval pouze oblast silných stránek bakalářské práce. Slabé stránky by pak byly analyzovány pomocí startovní fráze “slabé stránky“ a závěrečné “doporučení k obhajobě“. Takto snadně však posudky analyzovat nebylo možné, vzhledem k tomu, že poskytnutý vzorek posudků neobsahoval žádné formální členění, což je do jisté míry poněkud překvapivým zjištěním. U posudku absolventské práce by měl být standardizovaný formulář hodnocení samozřejmostí.
Obrázek 17
Výsledky analýzy Po použití všech výše uvedených nastavení bylo možné spustit samotný proces text miningu tlačítkem “index“.
Vzhledem k tomu, že použité dokumenty byly
optimálně předpřipraveny (převedeny na prostý text bez diakritiky) celý proces trval kolem dvou minut. Pro porovnání, při analýze směsi dokumentů ve formátu .PDF a .doc program pracoval nad analýzou více jak deset minut, i přes poměrně výkonný hardware. Stránka 39
Analýza textu (text mining) pomocí vybraného softwaru
Bez použití stop listu (analyzovány byla všechna slova bez výjimky) pak analýza trvala v řádu desítek minut. Po dokončení procesu analýzy se zobrazí tabulka s výsledky (obr. 18). Je zde zobrazen počet analyzovaných dokumentů (126), počet nalezených klíčových slov (260) a jejich synonym (109). Dále jsou zobrazeny samotná slova/fráze/stemy, jejich nalezený počet a počet dokumentů, ve kterých byly nalezeny. Jedná se pouze o hrubý výsledek, se kterým je nutno dále pracovat pro dosažení optimálních výsledků, a také ho exportovat do náležité a více srozumitelné formy.
Obrázek 18
Je samozřejmostí, že software bez podpory českého jazyku nevykonal všechny text miningové úlohy zcela optimálně, i když výsledek předčil očekávání. V této fázi následných úprav výsledků analýzy, se jednalo především o uživatelskou úpravu dle cílů bakalářské práce. Z výsledků byla zaškrtnutím v seznamu vybrána slova a slovní spojení, se kterými mělo smysl pracovat v dalším průběhu práce.
(Příloha č. 6)
Tímto
manuálním způsobem byly odstraněny výrazy, které byly pro cíl práce irelevantní (obr. 19 a 20). Stránka 40
Analýza textu (text mining) pomocí vybraného softwaru
Obrázek 19
Obrázek 20
Na tomto místě bylo nutné také opravit některé nedostatky práce softwaru se slovníkem synonym, respektive i některé nedostatky samotného slovníku synonym. Statistica 10 umožňovala přímo v seznamu nalezených stemů kombinovat jednotlivá pole jako synonyma, protože vývojáři softwaru logicky nepředpokládali všemocnost takto složitého softwaru. Za pomoci této funkce taky byly všechny podobné výrazy v seznamu přiřazeny jako synonyma pod výraz jeden, hlavní. Příklady přiřazení synonym vidíme na obrázcích 21, 22 a 23.
Obrázek 21
Obrázek 22
Obrázek 23
Po všech nezbytných úpravách pro dosažení optimálního výsledku analýzy je možné na dialogovém oknu zobrazeném programem (obr. 18) kliknout na tlačítko Stránka 41
Analýza textu (text mining) pomocí vybraného softwaru
“summary“. Program dodatečné úpravy zpracuje a poté zobrazí výsledek text miningu (obr. 25, 26 nebo 27). Zobrazení bude ovlivněno výběrem formy, jak má být výsledek zobrazen (obr. 24). Zde je možné zvolit zobrazení jako frekvenční matice, standardní tabulku, případně zobrazení názvů dokumentů, druhu a počtu indexovaných/nalezených slov v nich.
Obrázek 24
Asi nejlepším a nejpřehlednějším zobrazením je statistické zobrazení pod volbou “selected words“. Software generuje tabulku, kde je ve sloupcích zobrazen stem, počet nalezených stemů, počet dokumentů, ve kterých se daný stem vyskytoval a v případě, že má stem i synonymum, je zde zobrazeno také (obr. 25). (Příloha č. 5)
Obrázek 25
Stránka 42
Analýza textu (text mining) pomocí vybraného softwaru
Toto zobrazení nabízí široké možnosti exportu ve dvaceti různých formátech, včetně tabulek MS Excel (97-2003 nebo 2007 a novější), html exportů nebo .PDF (obr 26).
Obrázek 26
Praktickým zobrazením, spolu s prvním i s největší informační hodnotou, je zobrazení v režimu indexovaných dokumentů (obr. 27).
Obrázek 27
Zde je jednoznačně nejpřehledněji vidět, jaký posudek kritizoval jaké chyby. Tak například posudek s označením 54050v lze analyzovat následovně. Posudek má délku 2750 znaků a obsahuje 13 klíčových slov. Tolik co do statistických údajů. Bez toho, aby bylo možno posudek nebo s ním související bakalářskou práci číst, víme, jaký názor má oponent a tuto bakalářskou práci. Je zřejmé, že rozsah práce nebyl dostačující, dále dostačující nebyl ani závěr, práce byla povrchní a problém byl i s citací literatury. Přesto Stránka 43
Analýza textu (text mining) pomocí vybraného softwaru
byla navržena výsledná známka velmi dobře a práce byla doporučena k obhajobě. Z tohoto výstupu softwaru už začíná nabývat text mining konkrétní podoby a je možné na něm demonstrovat výhody textové analýzy popsané v teoretické části. Na kartě týkající se zpracování výsledků analýzy (obr. 28 a 29) software nabízí i data miningové funkce, které ale nejsou příliš zajímavé. Jedná se například o převod textu na hodnoty a podobně. Jedinou, z hlediska text miningu zajímavou, funkcí je tlačítko “importace“.
Obrázek 29
Obrázek 28
Prakticky
se
jedná
o
vektorový
model
dokument. V tomto pojetí je dokument chápan jako vektor. Obsah dokumentu je popsán klíčovými slovy a každému klíčovému slovu je přiřazena váha vyjadřující důležitost slova pro charakteristiku daného dokumentu. Základní myšlenkou vektorového modelu je vyjádření dokumentu
i
vyhledávacího
dotazu
jako
vektoru, jejich složkami jsou váhy klíčových slov (obr. 30). Obrázek 30
Na dialogovém okně na obrázku 30 (obr. 31)
je
možnost
Booleovský
model
rozšířit
analýzu
vyhledávání.
o
[41]
Základním principem tohoto modelu je použití výrokových spojek, které jsou velmi konkrétní a „ostré“ – pouze ANO x NE, Obrázek 31
Stránka 44
Analýza textu (text mining) pomocí vybraného softwaru
neexistuje zde mezistupeň. Pomocí spojek AND, NOT a OR vyjadřujeme požadavek na vyhledávané dokumenty. Příkladem může být vyhledání výrazů “cihla“ AND “dům“. Cihla a dům jsou klíčová slova. Nemusí však jít vždy o klíčové slovo v gramatickém smyslu (např. klíčové slovo může být i víceslovný termín – cihlový dům). Poslední karta na výše uvedeném dialogovém okně (obr. 32) nabízí rozmanité způsoby uložení výsledků vyhledávání. Výsledky lze uložit
do
stejného
souboru,
jakým
byl
zdrojový, exportovat je do stávajícího i nového souboru, nebo doplnit prázdné hodnoty ve stávajícím souboru.
Obrázek 32
Vyhodnocení výsledků textové analýzy V této části práce si popíšeme výsledky textové analýzy, ke kterým se dospělo po použití softwaru Statistica 10 na vybraný vzorek posudků bakalářských prací. Níže pak bude tento výsledek porovnán s výsledkem z manuálního zpracování všech dokumentů. Začneme popisem tabulky prvních výsledků (prvního výstupu softwaru), která je poměrně prostá a spíše statistická. •
Sloupec Terms/Phrase označuje klíčová slova, které software našel.
•
Sloupec Count - celkový počet všech klíčových slov ve všech dokumentech
•
Sloupec Number of document- v kolika dokumentech se jednotlivá slova vyskytovali (při vícečetném výskytu slov v konkrétním dokumentu se výskyt slova počítá vždy jen jednou)
•
Sloupec Example poskytuje slovo v nejpoužívanějším tvaru, pokud je v prvním sloupci stem, tedy slovo, které samo o sobě neexistuje. Z hlediska cíle práce nás bude zajímat především první a třetí sloupec, tedy
klíčové slovo a počet dokumentů, ve kterých bylo nalezeno. Samotný počet nálezů klíčového slova je nutno brát s rezervou, protože je ovlivněn duplicitními nálezy v jednom a tom samém posudku bakalářské práce, kde je chyba velmi často zmíněna opakovaně.
Tabulka č. 1 tedy demonstruje začátek prvního výstupu sw, který lze
kompletní nalézt v příloze k bakalářské práci. (Příloha č. 5) Stránka 45
Terms/Phrase
Analýza textu (text mining) pomocí vybraného softwaru
Count Number of
Example
(documents) Kapitoli
155
72
Literatura
103
69
Zaver
88
64
Cile
87
63
doporucuji
70
63
Obhajob
73
59
zpracovani
83
58
Casti
115
57
Citac
67
54
Známka
53
53
Uroven
71
52
Navrzena
60
48
Zdroje
84
47
Systemu
106
45
Povrchni
49
44
Reseni
60
42
Použitou
46
38
Vyznam
44
38
kapitoly
obhajobe
citace
Tabulka č. 1
Z tabulky je zřejmé, že nejvíce chyb souviselo s literaturou, konkrétně jejími citaci, závěrem a cílem bakalářské práce. Interpretací, proč se zde chyby nejčastěji vyskytují, je několik. Problém s citacemi a literaturou může být způsoben neznalostí norem pro bibliografické citace, nebo také tím, že studenti opíšou zdroje bez větší souvislosti s prací. Jiným výkladem může být i to, že oponent nalezne chybu tam, kde není, a předpokládá, že dokázat špatnou nebo správnou citaci, respektive ji obhájit, je poněkud obtížné. Spekulovat o příčinách chyb však není cílem této práce, proto se budeme věnovat výsledkům analýzy. Ty byly manuálně ověřeny studiem a vypisováním chyb ze všech posudků a toto ověření potvrdilo, že každá práce se potýká s aspoň jedním z těchto problémů. Oponenti měli také velmi často výhrady k řazení kapitol, nepropojenosti kapitol a dalším souvisejícím problémům. Tyto chyby ovšem oponenti nepovažovali za významné natolik, aby ovlivnily výslednou známku. Stránka 46
Analýza textu (text mining) pomocí vybraného softwaru
A první pohled lze usoudit z výskytu slova “doporučuji“ (63x), že jde pravděpodobně o doporučení práce k obhajobě, případně i jiná doporučení. Protože mezi počet termu “doporučuji“ není započítán term “doporučil bych“, ani „otázky k obhajobě“, které přímo ukazují na možnost obhajoby, lze se s jistotou domnívat, že drtivá většina prací byla k obhajobě doporučena. V textu níže zjistíme, že term “nedoporučuji“ se vyskytl pouze čtyřikrát, což předchozí závěr jednoznačně potvrzuje. První tabulka ukazuje výsledek text mineru ještě v neočištěné podobě před úpravami ilustrovanými na obr. 18 a 19, kdy výsledek ještě nebyl očištěn od irelevantních slov. Stav po tomto kroku ukazuje druhá tabulka, ve které jsou obsažena pouze slova považovaná za relevantní pro cíl práce. Terms/Phrase
Count
Number of
Example
(documents) Literatura
103
69
doporucuji
70
63
Citac
67
54
Zdroje
84
47
Povrchni
49
44
Rozsah
39
38
konzultac
46
36
konzultace
nevysvetluj
50
35
nevysvetluje
Stylisticka
57
34
gramaticke chybi
28
28
navrzena znamka velmi 27
27
citace
dobře Student
33
27
gramatick
25
23
gramaticke
Vyborn
27
23
vyborne
postradam komentar
29
22
navrzena znamka dobre
21
21
Strucni
26
21
studentka
24
21
Neodborn
27
20
strucny
Stránka 47
Analýza textu (text mining) pomocí vybraného softwaru
navrzena znamka vyborne 19
19
neprehledn
15
14
Isbn
20
13
neprehledne
Tabulka č. 2
Z tabulky č. 2 je již zřejmé (kompletní tabulka v příloze č. 6), že vybrané termy již samy o sobě mají vypovídající hodnotu a z jejich výskytu v konkrétním posudku lze usoudit na problém, který bakalářská práce dle oponenta má. Na tomto místě se je vhodné zmínit kvalitu softwaru Statistica. Algoritmy obsažené v programu s velkou pravděpodobností podporovaly metodu učení s učitelem (supervised learning). Hmatatelným důkazem byl fakt, že program zvládal používat vytvořeny slovník synonym a následně začal automaticky vyhledávat a správně přiřazovat synonyma k určitým výrazům. Například term “gramatick“nalezený pomocí vytvořeného slovníku synonym (tab. č. 3), Terms/Phrase
Count
Number of (documents)
Gramatick
25
23
Tabulka č. 3
byl doplněn softwarem o term “pravopisne“ se stejným počtem nalezených výskytů a dokumentů (tabulka č. 4). Terms/Phrase
Count
Number of (documents)
pravopisne
25
23
Tabulka č. 4
Software tak správně vyhledal synonymum, které sice nesloučil do jednoho termu, ale přesto tyto výsledky naznačují implementaci algoritmu schopného supervised learningu. Statistica 10 zezačátku zamítala pracovat bez manuální pomoci (import slovníku synonym), ovšem po opakovaných pokusech začínalo být víc a víc zřejmé, že se software analýzou učí a některé souvislosti si mechanicky/strojově dovodí. Z původního záznamu ve slovníku synonym obsahujícím hlavní term “gramaticke“ se synonymy pravopisne, gramatickych, gramaticka, pravopisnych, gramatic, pravopisn si software vytvořil vlastní term “pravopisne“ se synonymy gramaticke, gramatickych, gramaticka, pravopisnych, gramatic, pravopisn. Tato vlastnost programu potvrzuje, že pečlivý výběr kvalitního a výkonného softwaru pomocí mnoha kritérií nebylo ztrátou času a ve výsledku analýzy textu se tento vynaložený čas pozitivně odrazil. Dalším důkazem supervised learningu je fakt, že na Stránka 48
Analýza textu (text mining) pomocí vybraného softwaru
začátku analýzy během prvních pokusů, neumel analýzu spolu výskytu slov, a vypisoval pouze počet slov, jak je uvedeno v tabulce č. 5. Terms/Phrase
Count Number of (documents)
Abstraktu
2
2
alternativnich
3
2
Analyzu
25
22
Anglicka
3
3
Aplikaci
27
21
Tabulka č. 5
Po manuálním použiti funkce zavedeni víceslovného phrase/termu, který budou počítané jako jedno slovo (například: nic noveho ) vyvolalo doslova řetězovou reakci a program nalezl spoustu dalších spolu vyskytujících slov jako například “navrzena známka“, které se vyskytuje úplně v každém dokumentu. Manuální ověření výsledků textové analýzy Po exportů výsledků analýzy bylo nutné ověřit, zda byl software nastaven správně a výsledkům, které byly jeho výstupem, lze věřit. Podklady pro toto zpracování byly tabulky uvedené v příloze 7 a 8 a tabulka vytvořená v MS Excel (obr. 33) vzniklá po studiu a manuálním zpracováním všech 126 posudků bakalářských prací.
Obrázek 33
Vytvořit takovou tabulku bylo velmi časově náročné. Každý posudek bylo nutné přečíst a vypsat z něj vyskytující se chyby. Přestože tento způsob nevyučuje určité male procento chyb, dá se považovat za dostatečně reprezentativní. Naopak text miner při nesprávném použití určitých zadaných parametrů (stop list, nesprávný slovník synonym, chybné nastavení délky stemu atd.) může poskytnout naprosto zkreslený výsledek, který se bude diametrálně lišit od reality. Nicméně tabulka nejčastějších chyb byla vytvořena Stránka 49
Analýza textu (text mining) pomocí vybraného softwaru
a následně byly chyby seskupeny do tříd podle jejich charakteru (stylistické chyby, gramatické chyby, povrchnost, citace) a zpracovány v MS Excel do přehledné tabulky, která je řadila dle četnosti (obr. 34). (Příloha č. 7 a č. 8)
Obrázek 34
Z tabulky chyb v BP byly vyčleněny chyby, které nebyly zařaditelné pod žádnou třidu, nebo se vyskytovaly pouze v minimálním počtu. Tyto chyby by předchozí tabulku zbytečně prodlužovaly bez toho, aby měly na výsledek práce jakýkoli vliv. Cílem práce bylo vyhodnotit nejčastější chyby, nikoli chyby vyskytující se zřídka. Příkladem těchto chyb mohou být chyby uvedené v tabulce č. 6. Příloha č. 9 Irelevantní (ojedninělé) chyby postrádám umořovací plány postrádám zachycení postupu implementace postrádám ukazatele tržní hodnoty, ukazatele EVA není provedená procesní analýza že nebyly zcela využity možnosti komparační analýzy byla použita jen základní metodika nebyly použity indexy efektivnosti chyba v hierarchii chybí podepsané prohlášení Tabulka č. 6
Následným krokem bylo vytvoření srovnávací tabulky, kde na jedné straně byl výstup z text mineru a na druhé výsledek manuálního vyhodnocení. Tabulka, respektive její část ilustruje obr. 35. Celá tabulka je samozřejmě součástí příloh. Příloha č. 10 Stránka 50
Analýza textu (text mining) pomocí vybraného softwaru
Obrázek 35
Poté proběhla separace chyb, které text miner nenašel, ale manuální analýzou textu nalezeny byly (tabulka č. 7).
Příloha č. 11
Následovat bude porovnání strojových a
manuálních výsledků. Chyba BP
počet
členění kapitol není logické
7
Obrázky
7
není odůvodnění
3
nízká úroveň práce
4
práce s právními předpisy.
4
špatný přehled zkratek
3
Text abstraktu obsahuje chyby
2
typografické nedostatky
3
bez vhodného úvodu
2
Řešení
2
Anketa
2
chybí vlastní názor
7
Tabulka č. 7
Porovnání výsledků analýzy softwarem a manuálních výsledků V této prakticky závěrečné části analýzy dojde k porovnání strojově a manuálně získaných výsledků a hodnocení odchylek jednotlivých nalezených chyb, respektive posudků obsahujících tuto chyby. Chyby jsou v tomto přehledu řazeny od nejvíce frekventovaných nalezených manuálně, až po ty nejméně.
(Příloha č. 10)
Odchylka bude
Stránka 51
Analýza textu (text mining) pomocí vybraného softwaru
vyjádřena tak, že počet chyb manuálně bude brán za 100% a výsledek text mineru bude vyjádřen jako počet procent z manuálního výsledku. Terms/Phrase
Stylisticka
Count
57
Number of
Počet
(documents)
chyb
34
29
Název chyby
stylisticke chyby
Tabulka č. 8
Výraz “stylisticka“ (tabulka č. 8) je nejčastějším termem nalezeným v posudcích, který v sobě samozřejmě zahrnuje velké množství různých výrazů. Za použití slovníku a stemmingu (vyhledávání kořenu stylist) bylo nalezeno 57x výskytů tohoto stemu celkem ve 34 souborech. Tento stem má ale příliš široký význam a nemusí znamenat vždy chybu. Manuální analýzou textu byla chyba nalezena ve 29 souborech, což tvoří rozdíl 5 souboru. Procentuálně vyjádřeno text miner našel o 17,3% vyšší výskyt. Tuto relativně velkou odchylku připisuji příliš obecnému stemu, který mohl najít i jiné výskyty, které nelze přímo označit za chybu.
Terms/Phrase
gramaticke chyby
Count Number of
28
Počet
(documents)
chyb
28
27
Název chyby
pravopisné chyby
Tabulka č. 9
Výskyt těchto výrazů (tabulka č. 9) byl prakticky totožný, jelikož se jednalo o celou frázi (kombinace fráze gramatické chyby, gramatických chyb, pravopisné chyby a pravopisných chyb s výskytem 8x+9x+9x+2x=28x). V případě vyhledávání spolu výskytu slov, je software přesný, jelikož na fráze (více slov) již nejde efektivně použít metoda přiražení synonym.
Navíc gramatické chyby a pravopisné chyby byly
v softwaru manuálně zkombinovány pomocí funkce Combine words. Software sice vykazoval redundanci (54x výskytů stemu “gramatick“ a jeho synonym), ale ta byla manuálně z výsledků odfiltrována. Software tak ve výsledku vykazoval odchylku 3,7%, což je velmi uspokojivé. Jeden nalezený výraz navíc lze přičítat manuální chybě případně výskytu neobvyklého popisu dané chyby.
Stránka 52
Terms/Phrase
Analýza textu (text mining) pomocí vybraného softwaru
Count Number of
Počet Název chyby
(documents) chyb postradam odkazy
2
2
uvedeni zdroje
3
3
6
chybí uvedení zdroje
Tabulka č. 10
Tento výsledek (tabulka č. 10) je případem, že jestli program vyhledává fráze, neumí pochopit, které z nich jsou stejné. Opět je nutné použít funkci Combine words a výrazy zařadit k sobě, nebo je prostě na konci sečteme. Celkově software našel 5x neuvedených zdrojů, což se moc neliší od mnou nalezeného výsledku. Již v průběhu manuálního zpracování došlo k řazení chyb dle témat a současně „chybí uvedené zdroje“ a „není uveden odkaz na literaturu“ byly řazeny pod stejnou třídu chyb. Rozdíl jednoho výskytu tak není kritický, přestože tvoří rozdíl 20%. Vysoká procentuální odchylka je dána spíše malým rozsahem zkoumaného vzorku. Terms/Phrase
Povrchni
Count Number of
49
Počet
(documents)
chyb
44
15
Název chyby
povrchní rozbor
Tabulka č. 11
Výskyt termu “povrchní“ (tabulka č. 11) je velmi rozdílný od manuálního nalezení výrazu povrchní rozbor, který byl nalezen pouze patnáctkrát. Tento nezanedbatelný rozdíl je snadno logicky odůvodnitelný. Přídavné jméno povrchní je při hodnocení velmi často užívané vzhledem k jeho poněkud vágnímu a velmi subjektivnímu významu. Navíc fráze s ním spojené mohou být rozdílné, povrchní může být rozbor, zpracování závěr nebo i celá práce. Variant povrchností popsaných v posudcích bylo tolik, že kdyby se sečetly dohromady, zcela jistě by dosáhly počtu nalezených termů text minerem. Obecně lze udělat závěr, že více jak 40x prací z celkového počtu 126x se zdálo oponentům v nějakém směru povrchní, z toho v patnácti pracích bylo téma povrchně rozebráno. Zde lze tedy výsledek text mineru brát z obecného hlediska za více směrodatný. Terms/Phrase
Postradam komentar
Count Number of
29
Počet
(documents)
chyb
22
13
Název chyby chybí komentář
Tabulka č. 12
Výskyt fráze “postrádám komentář“ (tabulka č. 12) nalezl text miner celkově devětadvacetkrát, ve 22 souborech. Zde se rozdíl jeví jako poměrně velký. Software Stránka 53
Analýza textu (text mining) pomocí vybraného softwaru
hledal přesné sousloví, přesto bylo manuálně nalezeno méně výskytů. Výsledek text mineru lze brát za směrodatný, a výsledek manuální analýzy v tomto případě spíše za druhořadý. Chybu přičítám výskytu mezi řádky textu, kde tato chyba není uvedena v tak negativním světle, ale spíše jako drobná připomínka, tudíž v celém kontextu nebyla vždy extrahována jako chyba. Terms/Phrase
Strucny
Count
26
Number
of Počet
(documents)
chyb
21
12
Název chyby stručnost
Tabulka č. 13
Další výraz (tabulka č. 13), kde byla poměrně vysoká odchylka mezi výsledkem nalezeným softwarem, a manuálním zpracováním. Chyba je zde jasná. Software neumí z důvodu aplikace stop listu u slova stručný rozlišit pochvalu a námitky. Tak například tvrzení oponenta, že komentář je dostatečně konkrétní, ale není stručný, program považuje za chybu BP, ale ve skutečnosti jde o pozitivní komentář. Slovo “není“ je a musí být obsahem stop listu, a tak software nemá možnost rozlišit kladný a záporný význam u slov, které jsou použít i v opačném smyslu. Terms/Phrase
Count
Number
of Počet
(documents)
chyb
Název chyby
Nepresnosti
14
12
9
nepřesnosti
Popisny
13
12
8
popisný text
Neprehledn
15
14
6
nepřehlednost
Opsan
13
10
7
opsané
Chybn
5
4
2
chybné použití pojmů
Neocislovan
6
6
2
stránky nejsou číslované
Tabulka č. 14
Ani u několika dalších termů (tabulka č. 14) výsledek text mineru není tak špatný, jak by se mohlo na první pohled zdát. V prvé řadě je nutné si uvědomit, že manuálně hledané výsledky jsou zpravidla užšího významu, proto jsou také nalezeny méně často. Podíl na odchylce lze také přičíst za vinu slovníku synonym, v kterém uváděné slova měly v některých slovních spojeních odlišný význam. Dobrým příkladem zúžení výrazu je například chyba nečíslování stránek, která je přiřazena k termu “neocíslovan“. Software měl pod tento term přiřazen logicky i stem bez záporné předpony, tedy “cislov“, u něhož lze usuzovat na problém s číslováním, zahrnující chyby výrazy jako nesprávné číslovaní nebo chybné číslování. Je nutno také brát Stránka 54
Analýza textu (text mining) pomocí vybraného softwaru
v potaz, že nečíslované mohou být nejen stránky ale i obrázky, zdroje a podobně. Manuální analýza toto dovede rozpoznat, ale u analýzy softwarem dojdeme k velké roztříštěnosti výsledků, které je opět nutno dát do souvislostí manuálně, byť s určitou chybou. Terms/Phrase
Preklepy
Count
13
Number of
Počet
(documents)
chyb
13
7
Název chyby překlepy
Tabulka č. 15
Hledání, jak často se vyskytovaly v pracích překlepy (tabulka č. 15), vyšlo také s poměrně vysokou odchylkou 85% procent. Zde je na místě opět zmínit problém s negací chyby respektive pochvalou. Práce byla například “gramaticky správná, bez překlepů“, případně se “v práci nevyskytovaly žádné překlepy“, ale software toto automaticky po nelezení termu překlepy vykázal jako chybu. Předcházející významové slovo bylo opět pro extrémní počet výskytů součástí stop listu, a tak softwaru unikl pravý význam zjistitelný manuálně. Terms/Phrase
Count
Number of
Počet
(documents)
chyb
Název chyby
Interpunkce
7
7
7
chybná interpunkce
Hovorovi
3
2
3
netechnické vyjadřování
Nerelevantni
3
3
2
nerelevantní citace
Tabulka č. 16
Zde (tabulka č. 16) opravdu text miner, po doplnění informací jak pracovat, velmi dobře zanalyzoval chybnou interpunkci. K výsledku mu pomohl slovník synonym, protože při prvním výsledku velmi odlišný počet výskytu. Po přiřazení výrazů čárka, čárky, tečka, tečky pod term interpunkce program poskytl bezchybný výsledek odpovídající manuálnímu ověření. Ostatní výsledky týkající se nerelevantních citací případně hovorového netechnického vyjadřování se opět velmi těsně liší, případně zcela shodují. Terms/Phrase
chybi vysvetleni
Count
3
Number of
Počet
(documents)
chyb
3
Název chyby
6
chybí vysvětlení
3
není vysvětlení pojmů
Tabulka č. 17
Stránka 55
Analýza textu (text mining) pomocí vybraného softwaru
Frázi uvedenou v tabulce 17 software našel třikrát. To je pouze třetina výskytů podobných chyb objevených při manuální analýze. Přičítat to lze nepřesnému stemmingu nebo příliš rozdílnému popisu oponentů, kteří chyby přiřaditelné chybějícímu vysvětlení označují různými pojmy. Software navíc odhaluje, že studenti obecně nevysvětlují velké množství skutečností (zde zahrnuto to, že popis nevysvětluje obrázek, graf, výraz, pojem a podobně). Chybějící vysvětlení čehokoliv (tabulka č. 16) text miner našel celkem v 28 bakalářských pracích, respektive jejich posudcích. Terms/Phrase
Count Number of (documents)
nevysvetluj
33
28
Tabulka č. 18
Pod term “nevysvetluj“ (tabulka č. 18) také mohou být zařazeny další poměrně jinak popsané výsledky manuální analýzy, které ovšem spadají do stejné třídy (tabulka č. 19). Tak je teoreticky možné se součtem dostat až na počet dvaceti osmi, který poskytl text miner. Počet chyb
Název chyby
3
není odůvodnění
Tabulka č. 19
Terms/Phrase
Coun
Number of
Počet
t
(documents
chyb
Název chyby
) Neodborn
27
20
6
absenci odborného stylu
Nenavrhuj
28
21
3
chybí návrh řešení
Tabulka č. 20
Podobně velké odchylky vykazují i počty výskytů termů “neodborn“ a “navrhuj“, které lze přiřadit k obsahově zúženým chybám na pravé straně tabulky č. 20.
Terms/Phras
Count
e Neprokázat
10
Number of
Počet
(documents)
chyb
7
Název chyby
3
Problém s ověřením
2
neprůkazné citování zdrojů
Tabulka č. 21
Tabulka č. 21 ukazuje chyby související s neprůkazností. Software za použití slovníku synonym vykazuje dobré výsledky, které se poměrně blíží výsledkům Stránka 56
Analýza textu (text mining) pomocí vybraného softwaru
získaným při manuální analýze. Odchylku 40% lze přičítat složitosti formulace neprůkaznosti a poměrně malému výskytu chyby ve vzorku posudků BP. Terms/Phrase
Number of
Počet
(documents)
chyb
Count
Fakta
5
5
Název chyby
3
faktické chyby
Tabulka č. 22
Pokud jde o faktické chyby (tabulka č. 22), software za pomoci slovníku synonym vykázal dobrý výsledek. Pod slovem fakta (viz slovník synonym) přiřazené výrazy byly hlavním strůjcem skoro přesného výsledku týkajícího se faktických chyb. Odchylka dvou nálezů ukazuje na použití slova fakticky jako “slovní vycpávky“, například ve výrazu “závěr bakalářské práce byl fakticky správný“, kdy toto přídavné jméno nenese žádný informační význam, přesto je zachyceno text minerem. Terms/Phrase
Count
Citac
67
Number of (documents) 54
Tabulka č. 23
V tabulce č. 23 jsou zachyceny všechny nálezy text mineru související s citacemi. I přesto, že lze připustit, že některé výskyty se týkají vhodně zvolených citačních zdrojů, můžeme tvrdit, že velké množství prací se potýkalo s citačními problémy. Ostatně tento předpoklad potvrzuje manuální ověření, kdy různých hrubých chyb týkajících se citací bylo nalezeno bezmála 40x (tabulka č. 24). Počet chyb
Název chyby neprůkazné citování zdrojů
2
nerelevantní citace
2
nesprávné citovaná literatura
16
ISBN
13
málo citací
3
Tabulka č. 24
Terms/Phrase
Count
Number of
Počet
Název chyby
(documents) chyb Databaz
20
8
3
databáze
Nefunkcni
5
4
4
nepodařilo se vytvořit funkční aplikaci
Tabulka č. 25
Stránka 57
Analýza textu (text mining) pomocí vybraného softwaru
Tabulka č. 25 odráží realitu pouze, je-li správně interpretována. To znamená, že výsledek text mineru našel správně výskyt termů, ale výskyt nutně neznamená chybu. Pokud se podíváme na pravou stranu tabulky, jsou zde popsány obecné a konkrétní. Konkrétní chyby text miner našel přesně, což lze považovat za úspěch. Obecné chyby s databází ovšem nebyl schopen nalézt, a jediné, co našel, se týkalo výskytu slova database. Našel celkem 8 výskytů, což je přesný výsledek, co se týká BP zabývajících se v nějaké své části databází. Tento počet ovšem nekorespondoval s počtem chyb, které se vyskytovaly pouze 3x. Terms/Phrase
Count
Number of
Počet
Název chyby
(documents) chyb Narychlo
7(7)
7(4)
2
časové tísni
Tabulka č. 26
Software stabilně poskytoval výsledek uvedený v buňkách tabulky č. 26 v závorkách. Bohužel při úpravě slovníku synonym nebo stop listu (nelze s jistotou určit) začal nacházet sedm výskytů v sedmi dokumentech. Manuálně pak byly nalezeny pouze dva problém, které jsou uvedené v tabulce č. 27. Nalezené chyby práce vznikala narychlo časové tísni Tabulka č. 27
V následujících tabulkách (tab. 28, 29 a 30) jsou analyzovány více konkrétní skutečnosti, které program nalezl. Tak například podíl studentů a studentek. Text miner našel 27 výskytů slova student a 21 slova studentka, tedy celkem 48 dokumentů s výskytem těchto termů. U zbylých 78 posudků tak nelze určit, zda psal práci student, či studentka. Teoretický procentní poměr je 56,25/43,75 ve prospěch studentů. Větší vzorek prací by samozřejmě poskytl lepší statistický výsledek.
Terms/Phrase
Count
Number of (documents)
Student
33
27
Studentka
24
21
Tabulka č. 28
Další konkrétní skutečností, kterou lze vyčíst z analýzy jsou navržené známky (tabulka č. 29). Stránka 58
Terms/Phrase
Analýza textu (text mining) pomocí vybraného softwaru
Count
Number of (documents)
navrzena znamka dobře
21
21
navrzena znamka nevyhovel
2
2
navrzena znamka velmi dobře
27
27
navrzena znamka vyborne
19
19
Tabulka č. 29
V součtu se jedná ovšem jen o 69 dokumentů že 126. Objevení chyby, proč tomu tak je, bylo více než snadné. Textový analyzátor má problém s analýzou známky zapsané v číselném tvaru a tyto hodnoty přeskakuje. Prakticky to znamená, že výraz navržená známka 2 nebyl softwarem zaznamenán, tedy ani zahrnut do výše uvedené tabulky.
Terms/Phrase nedoporucuji doporucuji
Count
Number of (documents) 4
4
70
63
Tabulka č.30
Software našel výskyt termu “doporučuji“ v celkem 63 dokumentech. Nelze sice s jistotou říci, jestli je toto slovo vždy míněno v pozitivním smyslu, nikoli jako ve významu “doporučil bych se více zaměřit na… “, ale vzhledem k procentu výskytu slova nedoporučuji a výskytu navržených známek nevyhověl v předchozí tabulce č. 29, lze tento výsledek považovat za výsledek odrážející skutečnost.
Stránka 59
Analýza textu (text mining) pomocí vybraného softwaru
Grafické zobrazení výsledků
V grafu č. 2 (kvůli rozsahu uveden v příloze) je zobrazeno srovnání výsledků manuální analýzy s výsledkem získaným pomocí text mineru. Dále je možno ze získaných dat sestavit i graf (graf č. 1) nejčastěji vyskytujících chyb (pro přehlednost bylo vybráno nejčastějších 20 chyb). Graf č. 1 – nejčastější chyby v posudcích BP
Graf č. 1
Literatura Závěr Citace Povrchnost práce Konzultace Stylistické chyby
20
17
14
12 12 10 14 13
Gramatické chyby Nevysvětluje
69 64
21 21
54
22 22 28
28
44 34
36
Postrádám komentář Odkazy Stručnost Nenavrhuje Neodbornost Nepropojenost Nepřehlednost Zbytečnosti Překlepy Nepřesnosti Popisky Opisování
Stránka 60
4. Závěr
Analýza textu (text mining) pomocí vybraného softwaru
Zadaný cíl práce, analyzovat posudky bakalářských prací a zjistit nejčastější uváděné chyby, se podařilo splnit. Byl nalezen vhodný software pro analýzu posudků bakalářských prací a tímto softwarem byly dokumenty bez (technických) chyb analyzovány. Získané výsledky byly následně ověřeny manuálním zpracováním dat, které mělo ovšem jen pomocnou funkci a posloužilo také pro správnou interpretaci výsledků získaných text minerem. Tak byly nalezeny nejčastější chyby, které oponenti vytýkali studentům při zpracování bakalářských prací. Z časového hlediska lze říci, že nejnáročnější byl samotný výběr a ověření vhodného softwaru pro analýzu a předpřípravu. Poměrně časově náročná byla také tvorba slovníku synonym, stop listu a konverze dokumentů, tedy samotná předpříprava. Pokud by byly získané informace o vhodném softwaru již známé a současně dostupný kvalitní stop list a slovník synonym, byl by text mining velmi efektivní a rychlý způsob pro analýzu vybraného textu. V porovnání s manuální analýzou, které byla součástí ověření, je text miner pro větší objem dat jednoznačně výhodnější. Na časové měřítko je nutné nahlížet s dvěma základními kritérii. Nejvýznamnější je objem zpracovaných dat, a co je předmětem vyhledávání. Pokud se jedná o konkrétní cíl vyhledávání, například z posudků vyhledat, kolik prací bylo navrženo k obhajobě, a současně se jedná o středně velký až velký analyzovaný vzorek (rozuměno desítky a více dokumentů), je jednoznačně výhodné použití text mineru. Pokud by byl počet dokumentů nižší (1 až cca 10 dokumentů), bylo by možné považovat manuální analýzu za rychlejší způsob (fakticky rychlejší než fázi předpřípravy pro zpracování softwarem). V mém případě (126 dokumentů) by se časové hledisko dalo vyjádřit tak, že manuální analýza byla časově náročnější, než analýza provedená text minerem. Samotné zpracování softwarem (fáze analýzy) hraje v celkovém čase zanedbatelnou roli, 126 dokumentů je zpracováváno přibližně jednu až dvě minuty. Tento závěr týkající se časového hlediska ovšem není obecně aplikovatelný, respektive je aplikovatelný pouze na rozsahově podobné dokumenty (přibližně stejný počet znaků/dokument a stejná struktura = nestrukturovaná data). V odlišných případech bude časové hledisko analýzy záležet na rozsahu dokumentů, například velmi rozsáhlý dokument bude vždy rychlejší zpracovat strojově a naopak, velké množství jednoduchých malých dokumentů bude výhodné text minerem zpracovávat až od opravdu vysokého počtu. Dalším hlediskem rychlosti zpracování bude struktura textu.
Stránka 61
Analýza textu (text mining) pomocí vybraného softwaru
Co se týká uživatelského komfortu, program Statistica 10 poskytoval moderní rozhraní a bylo ho snadné ovládat. Někomu by mohlo způsobit komplikace rozhraní v anglickém jazyce, ale obecně lze říci, že se jednalo o uživatelsky přátelský software. To se ovšem nedá tvrdit o jeho konkurentech, například software SAS měl natolik složitou instalaci, že by ji běžný uživatel nedokázal úspěšně dokončit. Software si velmi dobře poradil s obsahovou analýzou dokumentů (obr. 27), kdy zobrazený výsledek poskytl rychlý přehled obsahu posudků bez potřeby posudky číst. Ze získaných výsledků lze také jednoznačně vyvodit, že konkrétnější dotazy software hledá mnohem lépe, neboť jednoznačné výrazy mají fakticky stoprocentní shodu v počtu nalezení s manuálním zpracováním. Samozřejmě textová analýza má i své nevýhody. Nejzásadnějším problémem text miningového zpracování bude stále nepřesnost výsledků ovlivněná samotným faktem, že text není zpracován lidským mozkem, ale softwarem. Text miner je stále jenom software a zdaleka není dokonalý, nedovede rozlišit smysl slova, i když toto nelze tak jednoduše generalizovat, protože použitý software byl bez nativní podpory českého jazyka. Text miner Statistica tak potřeboval dotvořit logické souvislosti, dále bylo nutné zadat do programu kombinace slov/fráze, slovník synonym a stop list upravený dle předmětu analýzy. Dalším problém byl s negacemi, například je/není povrchní, kdy slovo “není“ je a musí být součástí stop listu, a tak software nevystihne správný význam výrazu ve větě. Zda se může jednat i o problém způsobený stemmingem. Po získání výstupu text mineru tak byla nezbytně nutná znalost analyzovaného vzorku, aby došlo ke správné interpretaci výsledků. Obecně lze říci, že textová analýza stále není dokonalá a potýká se s mnoha problémy. Největším problém představuje fakt, že samotný text není ve své podstatě navržen pro zpracování počítači. Data pro text mining jsou nevhodně nebo vůbec nejsou strukturována, text obecně má velmi složitou sémantiku, často se v něm objevují dvojsmysly. Z těchto důvodů vyžaduje dolování v textech specifický přístup při předzpracování i samotném zpracování dat. Textová analýza je tak stále úkolem, se kterým si stroj bezchybně neporadí, a bezpodmínečně musí být do procesu analýzy zapojen lidský prvek se svojí logikou.
Stránka 62
Analýza textu (text mining) pomocí vybraného softwaru
5. Seznam citací:
[1]Analýza textu. NTX.cz [online]. 2012 [cit. 2012-10-17]. Dostupné z: http://ntx.cz/zdroje/73/analyza-textu/ [2] Azazel no-diakritik 2.0: Odstraňovač diakritiky a html tagů. Sosej.cz [online]. 8.5.2007 Dostupné z: http://www.sosej.cz/Software/Jiny-software/Ostatni/Azazel-NoDiakritik [3] Berka, P. 2003. Dobývání znalostí z databází. Praha: Academia. [4] BERKA P. Stručný návod k práci se systémem WEKA: aplikace na data STULONG. In: [online]. 28.5.2007 [cit. 2012-10-17]. Dostupné z: http://sorry.vse.cz/~berka/docs/4iz450/weka-navod.pdf [5] BURGET, R.; SMÉKAL, Z.; KARÁSEK, J. Classification and Detection of Emotions in Czech News Headlines. The 33rd International Conference on Telecommunication and Signal Processing, TSP 2010. 2010, s. 1-5. Dostupný z WWW:
. [6] CERVENEC, Bc. RADEK. ROZPOZNÁVÁNÍ EMOCÍ V CESKY PSANÝCH TEXTECH: RECOGNITION OF EMOTIONS IN CZECH TEXTS [online]. BRNO, 2011 [cit. 2012-10-17]. 77712. DIPLOMOVÁ PRÁCE. VYSOKÉ UCENÍ TECHNICKÉ V BRNE. Vedoucí práce Ing. RADIM BURGET, Ph.D. Dostupné z: http://www.vutbr.cz/www_base/zav_prace_soubor_verejne.php?file_id=38384. [7] Charles T. Meadow. Text Information Retrieval Systems. 1992. Academic Press, Inc., Orlando, FL, USA . [8] Convert Doc: Convert Doc 5.68. Instaluj.cz [online]. SoftInterface, Inc., 21.05.2010 [cit. 2012-12-17]. Dostupné z: http://www.instaluj.cz/convert-doc [9] BAYER, Jaroslav, Jan GÉRYK a Lubomír POPELÍNSKÝ. Vyhledávání a analýza textů popisujících výjezdy hasičského záchranného sboru [online]. Brno. Dostupné z: http://is.muni.cz/th/72902/fi_r/znalosti2011_firemen.pdf. Článek. Masarykova univerzita. [10] Dagan, I. 2000. Contextual Word Similarity. In. Dale, Moisl & Sommers (eds.) Handbook of natural language processing. New York: CRC Press, 459-476. [11] Dale, R.; Moisl, H; Somers, H. L. 2000. Handbook of natural language processing. New York: CRC Press. [12] FEJFAR, Kamil. Metody kategorizace textu [online]. Plzeň, 2007 [cit. 2012-1023]. Dostupné z: https://stagdemo.zcu.cz/ws/services/rest/kvalifikacniprace/downloadPraceContent?adipIdno=1961 Stránka 63
Analýza textu (text mining) pomocí vybraného softwaru
0. Diplomová práce. Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra informatiky a vyčpočetní techniky. [13] Feldman, R.; Sanger, J.: The text mining handbook: advanced approaches in analyzing unstructured data. Cambridge Univ Pr, 2007. [14]Firth, J. R. 1957. A Synopsis of Linguistic Theory 1930–1955. In Studies in Linguistic Analysis. Special volume of the Philological Society. Oxford: Blackwell, 1– 32. [15] HÁJEK, Martin. Počítačová textová analýza metodou sledování spoluvýskytů slov. Data a výzkum - SDA Info. 2010, roč. 4, č. 1, s. 19-37. ISSN 1802-8152. [16] JEŽEK, Karel a Josef STEINBERGER. Sumarizace textů. Text Summarization [online]. (2009), 127-149 [cit. 2012-12-17]. Dostupné z: http://textmining.zcu.cz/publications/SumarizDATAKON.pdf [17] Ian H. Witten Computer Science, University of Waikato, Hamilton, New Zealand Text mining http://www.cos.ufrj.br/~rick/gc2010/_papers/aula13/04-IHWTextmining.pdf [18] IBM®: SPSS Text Analytics for Surveys. IBM [online]. [cit. 2012-10-17]. Dostupné z: http://www14.software.ibm.com/download/data/web/en_US/trialprograms/P254879Q17 958R48.html [19] Ikaros, redakce. Extrakce informací z úplných textů (Jan Žbirka). Ikaros [online]. 2006, roč. 10, č. 5/2 [cit. 17.12.2012]. Dostupný na World Wide Web: . URN-NBN:cz-ik3396. ISSN 1212-5075. [20] KOLÁŘ, M. Převod slov na základní tvar. Plzen: Západočeská univerzita. Fakulta aplikovaných věd. Katedra informatiky a výpočetní techniky, 2006. [21] KOPÁČKOVÁ, Hana. Podpora manažerského rozhodování s využitím strojového učení : (výsledná publikace z grantu GAČR 402/05/P155). Pardubice : Univerzita Pardubice, 2007. 74 s. ISBN 978-80-7395-031-6 [22] [KUPKA, Karel. Data mining - možnosti a použití. Automa. 2002, č. 2, s. 57-60] [23] MATERNA, Jiří. Automatické určení domény a klíčových slov stránky [online]. Brno, 2008. Dostupné z: http://is.muni.cz/th/98897/fi_m/master-thesis.pdf. Diplomova prace. Masarykova Univerzita - Fakulta Informatiky. [24] PECKA, Miroslav. Úvod: TextMod – všestranný modifikátor textů. TextMod [online]. [cit. 2012-12-17]. Dostupné z: http://textmod.pavucina.com/ [25] RANKS.NL, „Czech stopwords”. URL: http://www.ranks.nl/stopwords/czech.html Stránka 64
Analýza textu (text mining) pomocí vybraného softwaru
[26] Rapid - I - RapidMiner [online]. 2001 [cit. 2010-11-07]. RapidMiner. Dostupné z WWW: . [27] SAS [online]. 2009-09-15 [cit. 2010-12-23]. Introduction to Text Mining and SAS Text Miner 4.1. Dostupné z WWW: [28] SAS® Text Miner. SAS INSTITUTE INC. SAS [online]. [cit. 2012-10-17]. Dostupné z: http://www.sas.com/company/about/index.html [29] SEBASTIANI, F. Machine learning in automated text categorization. ACM Computing Surveys, 34(1):1-47, 2002 [30] SEDLÁČEK, Petr. Faculty of Informatics MU [online]. 2003 [cit. 2010-12-27]. Text mining a jeho možnosti (aplikace). Dostupné z WWW: http://www.fi.muni.cz/usr/jkucera/pv109/2003p/xsedlac5.htm [31] STATISTICA™. StatSoft [online]. [cit. 2012-10-17]. Dostupné z: http://www.statsoft.cz/ [32] STATISTICA: Text Miner. StatSoft [online]. 2004, - 2012 [cit. 2012-10-17]. Dostupné z: http://www.statsoft.cz/ [33] Strossa, P. Český lemmatizátor: Proč a hlavně jak? Scienceworld. [Online] IDG Czech, a.s., 26. 8.2002. Dostupné z: http://www.scienceworld.cz/sw.nsf/0/6B67159F988B95AFC1256E970048C2BB?Open Document&cast=1 [34] Steinberger, J., Ježek, K.: Text Summarization: An Old Challenge and New Approaches. Foundations of Computational Intelligence Vol 6, Springer (2009), 127149. [35] Tryon, R. C. Cluster analysis. Ann. Arbor: Edwards Bros., 1939 [36] ULDRICH, Miloš. Text mining aneb Kladivo na nestrukturovaná data. IT Systems 12/2011: Text mining [online]. Časopis IT Systems, 2011, 12/2011 [cit. 2012-09-12]. ISSN 1802-615X. Dostupné z: http://www.systemonline.cz/clanky/text-mining-kladivona-nestrukturovana-data.htm [37] P. Vossen, „Global WordNet Association: EuroWordNet”. Last update 9/1/2001. URL: http://www.illc.uva.nl/EuroWordNet/ [38] WEKA: Weka 3: Data Mining Software. Machine Learning Group at University of Waikato. [online]. Dostupné z: http://www.cs.waikato.ac.nz/ml/weka/
Stránka 65
Analýza textu (text mining) pomocí vybraného softwaru
[39] The WordNet Home Page [online]. 1998 [cit. 2010-11-09]. The WordNet Reference Manual. Dostupné z WWW:
Stránka 66
Analýza textu (text mining) pomocí vybraného softwaru
6. Seznam použité literatury a internetových zdrojů: BAYER, Jaroslav, Jan GÉRYK a Lubomír POPELÍNSKÝ. Vyhledávání a analýza textů popisujících výjezdy hasičského záchranného sboru [online]. Brno [cit. 2012-10-19]. Dostupné
z:
http://is.muni.cz/th/72902/fi_r/znalosti2011_firemen.pdf.
Článek.
Masarykova univerzita. Berka, P. 2003. Dobývání znalostí z databází. Praha: Academia. Charles T. Meadow. Text Information Retrieval Systems. 1992. Academic Press, Inc., Orlando, FL, USA . FEJFAR, Kamil. Metody kategorizace textu [online]. Plzeň, 2007 [cit. 2012-10-23]. Dostupné
https://stag-
z:
demo.zcu.cz/ws/services/rest/kvalifikacniprace/downloadPraceContent?adipIdno=1961 0. Diplomová práce. Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra informatiky a vyčpočetní techniky. Feldman, R.; Sanger, J.: The text mining handbook: advanced approaches in analyzing unstructured data. Cambridge Univ Pr, 2007. HÁJEK, Martin. Počítačová textová analýza metodou sledování spoluvýskytů slov. Data a výzkum - SDA Info. 2010, roč. 4, č. 1, s. 19-37. ISSN 1802-8152. HORÁK, Dr. Ing. Jiří. Prostorová analýza dat: Shluková analýza [online]. Ostrava, 2002 [cit. 2012-10-19]. Dostupné z: http://gis.vsb.cz/pad/index.htm. Učební text. VŠBTU. JEŽEK, Karel a Josef STEINBERGER. Sumarizace textů. Text Summarization [online].
(2009),
127-149
[cit.
2012-12-17].
Dostupné
z:
http://textmining.zcu.cz/publications/SumarizDATAKON.pdf Ian H. Witten Computer Science, University of Waikato, Hamilton, New Zealand Text mining http://www.cos.ufrj.br/~rick/gc2010/_papers/aula13/04-IHW-Textmining.pdf
Stránka 67
Analýza textu (text mining) pomocí vybraného softwaru
IBM®: SPSS Text Analytics for Surveys. IBM [online]. [cit. 2012-10-17]. Dostupné z: http://www14.software.ibm.com/download/data/web/en_US/trialprograms/P254879Q17 958R48.html Ikaros, redakce. Extrakce informací z úplných textů (Jan Žbirka). Ikaros [online]. 2006, roč.
10,
č.
5/2
[cit.
17.12.2012].
Dostupný
na
World
Wide
Web:
. URN-NBN:cz-ik3396. ISSN 1212-5075. KOLÁŘ, M. Převod slov na základní tvar. Plzen: Západočeská univerzita. Fakulta aplikovaných věd. Katedra informatiky a výpočetní techniky, 2006. KOPÁČKOVÁ, Hana. Podpora manažerského rozhodování s využitím strojového učení : (výsledná publikace z grantu GAČR 402/05/P155). Pardubice : Univerzita Pardubice, 2007. 74 s. ISBN 978-80-7395-031-6 [KUPKA, Karel. Data mining - možnosti a použití. Automa. 2002, č. 2, s. 57-60] KUČERA, Jiří.
Shluková analýza. [online]. [cit. 2012-10-19]. Dostupné z:
http://is.muni.cz/th/172767/fi_b/5739129/web/web/main.html KUČEROVÁ, Helena. Metody a techniky vyhledávání informací. Zpracování informací a znalostí - ZIZ 2009/2010 [online]. 2009/2010 [cit. 2012-11-19]. Dostupné z: http://info.sks.cz/users/ku/ZIZ/ziz.htm MATERNA, Jiří. Automatické určení domény a klíčových slov stránky [online]. Brno, 2008. Dostupné z: http://is.muni.cz/th/98897/fi_m/master-thesis.pdf. Diplomova prace. Masarykova Univerzita - Fakulta Informatiky. RAUCH, Jan. Metody zpracování informací II: Ukládání a vyhledávání. 1. vyd. Praha : Vysoká škola ekonomická, 1996. 88 s., lit. ISBN 80-7079-870-X SAS [online]. 2009-09-15 [cit. 2010-12-23]. Introduction to Text Mining and SAS Text Miner
4.1.
Dostupné
z
WWW:
SEDLÁČEK, Petr. Faculty of Informatics MU [online]. 2003 [cit. 2010-12-27]. Text mining
a
jeho
možnosti
(aplikace).
Dostupné
z
WWW:
http://www.fi.muni.cz/usr/jkucera/pv109/2003p/xsedlac5.htm Stránka 68
Analýza textu (text mining) pomocí vybraného softwaru
Strossa, P. Český lemmatizátor: Proč a hlavně jak? Scienceworld. [Online] IDG Czech, a.s.,
26.
8.2002.
Dostupné
z:
http://www.scienceworld.cz/sw.nsf/0/6B67159F988B95AFC1256E970048C2BB?Open Document&cast=1 ULDRICH, Miloš. Text mining aneb Kladivo na nestrukturovaná data. IT Systems 12/2011: Text mining [online]. Časopis IT Systems, 2011, 12/2011 [cit. 2012-09-12]. ISSN 1802-615X. Dostupné z: http://www.systemonline.cz/clanky/text-mining-kladivona-nestrukturovana-data.htm Z. Ceska, „Využití moderních přístupů pro detekci plagiátů”, Proceedings of the ITAT 2008, pp. 23-26, Hrebienok, Slovakia, 2008. ISBN 978-80-969184-8-5.
Stránka 69
Analýza textu (text mining) pomocí vybraného softwaru
Seznam příloh
Příloha č. 1 Posudky bakalářských prací (2009-2012) (příloha pouze v elektronické formě na CD.) Příloha č. 2 Stop list Příloha č. 3 Frekvenční slovník a slovník synonym Příloha č. 4 Fráze/sousloví. Příloha č. 5 První výstup SW Příloha č. 6 vybrána slova a slovní spojení, se kterými mělo smysl pracovat v dalším průběhu práce. Příloha č. 7 Chyby seskupeny do tříd podle jejich charakteru (manuální práce) Příloha č. 8 Tabulka nejčastějších chyb. Manuální zpracovaní Příloha č. 9 chyby vyskytující se zřídka Příloha č. 10 Srovnávací tabulka Příloha č. 11 chyby, které text miner nenašel, ale manuální analýzou textu nalezeny
Stránka 70
Analýza textu (text mining) pomocí vybraného softwaru Příloha č. 2 STOP LIST:
a
budem
chteji
den
jde
aby
budeme
chtit
deset
je
ackoli
budes
chut
design
jeden
ahoj
budete
chuti
devatenact
jedenact
ale
budou
ci
devet
jedna
anebo
budu
clanek
dnes
jedno
ani
by
clanku
do
jednou
aniz
byl
clanky
dobry
jedou
ano
byla
co
docela
jeho
asi
byli
com
dva
jej
aspon
bylo
coz
dvacet
jeji
avsak
byly
ctrnact
dvanact
jejich
az
bys
ctyri
dve
jemu
ba
byt
cz
email
jen
behem
bych
dal
ho
jenom
bez
cau
dale
hodne
jenz
beze
chce
daleko
i
jeste
blizko
chceme
dalsi
ja
jestli
bohuzel
chces
dekovat
jak
jestlize
brzo
chcete
dekujeme
jake
ji
bude
chci
dekuji
jako
jich
jijine
Analýza textu (text mining) pomocí vybraného softwaru
kterou
muj
nedela
nich
jim
ktery
musi
nedelaji
nim
jimi
ku
muze
nedelam
nimi
jinak
kvuli
my
nedelame
nove
jiz
ma
na
nedelas
novy
jsem
maji
nad
nedelate
nula
jses
malo
nade
nejak
nybrz
jsi
mam
nam
nejsi
o
jsme
mame
nami
nejsou
od
jsou
mas
napiste
nekde
ode
jste
mate
naproti
nekdo
on
k
me
nas
nemaji
ona
kam
mezi
nase
nemame
oni
kde
mi
nasi
nemate
ono
kdo
mit
ne
nemel
ony
kdy
mne
nebo
nemu
org
kdyz
mnou
nebot
neni
osm
ke
moc
nebyl
nestaci
osmnact
kolik
mohl
nebyla
net
pak
krome
mohou
nebyli
nevadi
patnact
ktera
moje
nebyly
nez
pet
ktere
moji
necht
ni
po
kteri
mozna
neco
nic
pod
Přílohy
podle
Analýza textu (text mining) pomocí vybraného softwaru
se
tady
tipy
tvuj
pokud
sedm
tak
tisic
ty
porad
sedmnact
take
tisice
tyto
potom
sest
takhle
to
u
pouze
sestnact
taky
tobe
urcite
pozde
si
takze
tohle
uz
prave
sice
tam
toho
v
pred
skoro
tamhle
tohoto
vam
pres
smeji
tamhleto
tom
vami
prese
smi
tamto
tomto
vas
pri
snad
tato
tomuto
vase
pro
spol
te
totiz
vasi
proc
spolu
tebe
toto
ve
prosim
sta
tebou
treba
vecer
proste
ste
ted'
tri
vedle
proti
sto
tedy
trinact
vice
proto
strana
tema
trosku
vlastne
protoze
sve
ten
tu
vsak
prvni
svuj
tento
tudiz
vsechen
pta
svych
teto
tuto
vsechno
re
svym
ti
tva
vsichni
rovne
svymi
tim
tve
vubec
s
ta
timto
tvoje
vy
Přílohy
vzdy
Analýza textu (text mining) pomocí vybraného softwaru
zda
bakalarske
hodnoceni
textu
vzdyt
zde
bakalarska
tematu
jejich
z
ze
autorka
temat
na
za
zpet
student
text
absenci
zac
zpravy
studentka
prace
prace
zatimco
prace
autor
je
provadene
Nebyla
hodnoceni
informace
praci
analyzy
provedena
dilci
jednotlive
chyb
analyza
postradaji
textu
zminenym
pouziti
analyze
ceskou
myslenky
spokojila
velmi
se
cetne
stale
charakteristi
teoreticke
si
mnoho
dokola
informace
nedostatecna
zatizeno
objevuji
jednotlive
postradam
volby
vubec
velmi
Text
tisni
obsahuje
velice
obsahuje
vznikala
verzi
zminenym
chyba
prace
prevzat
spokojila
chyby
vymezen
pouze
pouze
mnozstvi
Obr
Mnohe
Teoreticka
ve
vecnych
blizsiho
ocekavala
Vyskytuji
terminologic
obtizne
udaje
vadny
prilis
nedostatky
ky obcasne prinosu
Přílohy
velmi teoreticke
kou chyby mnozstvi cetne dostatecne jasne pripomina spise prilis nedostatek fakt faktu
zpracovavan ou vyssi popisovanou probirane probiranou textu vyjadreno zadani oblasti
Přílohy
Analýza textu (text mining) pomocí vybraného softwaru
peclive
praktick
programu
velky
sirsi
bakalarskou
ovsem
velikost
dostatecne
zcela
problem
uplne
hodnotici
dat
potreba
uveden
uvadeny
mozne
vyhody
techto
zadaneho
mozn
vyhrady
styl
jednoduche
problematik
vsech
odborna
vsemu
dobre
vlastni
spatne
verz
pouzitych
dilci abecedne cast
ou problematik nektere
Analýza textu (text mining) pomocí vybraného softwaru
Příloha č. 3 Frekvenční slovník a slovník synonym:
strucny: kratka, stroha, podrobnejsi, konkretnejsi, rozsirit, strucna, strucne, zestrucneny, zestrucnene, strucnou, unosnosti povrchni: uzkem, hlubsi, sirsiho, hlubsim, omezuje, omezena, omezen, podrobnejsi, podrobnejc, hloubka, rozsahlejsi gramaticke: pravopisne, gramatickych, gramaticka, pravopisnych, gramatic, pravopisn preklepy: preklep, preklepu, preklepech subjektivnost: subjektivnosti, subjektivnost, subjektivni, subjektivnimi nepresnosti: nepresne, nepresna, nespravnostem, nepresnostem opakuji: opakujici, opakovany, opakuj, opakovani, opakovan klise: novy, noveho, vseobecnymi opsane: doslovnym, prepisem, opsana, opsany, opsano, opisny, doslovnou, doslovne, doslovny, kopirovane, kopirovan, kopirovany nevysvetluje: vysvetleny, vysvetleni, objasneni, vysvetlen neoduvodnil: zduvodneni, oduvodneni necitelny: citelnejsi, citelne, citelny, necitelne popisny: denik, popisna, navod konkretnejsi: konkretniho, konkretnich, faktografickych, faktickych neprokazat: neoverit, overenim, overit, neprokazat, neprukazne nefunkcni: nepodarilo, funkcni, funkni nepropojen: nepropoejne, nesouvislosti, souvislosti, propojeni, nesouvisly, nepropojeny neprehledne: neprehledna, neprehledny, orientovat, prehledny, prehlednejsi stylisticka: stylistickemu, transliterovany, formatovani, roztece, umisteni, cleneni, formatovan, odstavce, radkovani neodborne: vedeckeho, odbornemu, odborne, neodborny, neodbornym, neodborne, vyroky, vyrokum nenavrhuje: navrh, nenavrhl, nenavrhla nesrovnalosti: ruzni, rozlisne, rozlisna, nesrovnale nesplnil: naplnen, nesplnenim, nesplneni, nedosazen, nedoresenych, nedoresene
Přílohy
Analýza textu (text mining) pomocí vybraného softwaru
nekomentuje: komentovane, okomentovan, okomentovanym, okomentovat, okomentovany, komentare, komentar isbn: citacni, etiky, kompetence, csn, iso, isbn, kompilace, nekompetence, etika citace: necitovana, citovana, citovani, citaci, reference neusporadan: usporadan, usporadat, usporadany, utriden neobvykle: radne, neobvykly, radny, neobvykly interpunkce: tecka, carka, carek, carky, tecky anglicka: anglictine odklon: ramec, odchylila konzultace: konzultovat, konzultaci, vedoucim hovorovy: netechnicke, hovorovy, netechnicky, hovorove zbytecne: slozite typograficke: font, pismo, mezery uvodem: uvodu, anotace, anotaci zaver: zaverum, zavery, zaverecne metodice: metodiky, metodach kapitoly: kapitol, kapitola, kapitolech neocislovane: ocislovane, cislo, cislovani, ocislovane, necislovane teoreticke: teoretickou, teoreticka, teoret student: autor, autorem, autora, autorovi, autorovo studentka: autorka, autorky, studentky zpusob: zpusobi zdroje: zdroj, zdroji, zdrojich, zdrojovi, zdroju uroven: urovni tabulek: tabulkam stylu: stylem stylisticka: stylistick stranek: stranki, stranku Přílohy
spravnou: spravn
Analýza textu (text mining) pomocí vybraného softwaru
prilohi: priloz predlozen: predlozena pozadavki: pozadavku pouzitou: pouzit, pouziteho, pouzivani, pouzivanych popiski: popisek pojem: pojmi, pojmu odkaz: odkazi, odkazovano, odkazu odbornem: odbornou obrazki: obrazku nevhodna: nevhodn nesplnil: nesplnuj neodpovida: neodpovidaji neobsahuji: neobsahuj nadpisi: nadpis metoda: metod, metodic literatura: literaturi, literaturou, literaturu doporucuji: doporucil databaz: databazovych citace: citovan, citovat cile: cil stylisticka: mezer, odstavec mista: mistech, misti typografick: chybejicich, carek uvaden: uvedeni vhodnejsi: vhodneho vypracovana: vypracovani zpracovani: zpracovan Přílohy
Analýza textu (text mining) pomocí vybraného softwaru
Příloha č. 4 Fráze/sousloví: gramaticke chyby nic noveho chybi popis chybi vysvetleni nejsou propojeny formalni zpracovani uroven prace je nizka Postrada propojeni absenci odkazu postradam vysvetleni zbytecne slozite chybi zaver
neodpovida odbornemu textu neni uveden odkaz na literaturu chybí odkaz nejsou uváděny zdroje
Přílohy
Analýza textu (text mining) pomocí vybraného softwaru
Příloha č. 5 První výstup SW analýzy:
Celkový výsledek textové analýzy. Vzhledem k rozsahu přílohy (vice než 200 řádku) je příloha v elektronické formě na CD.
Count
Přílohy
Terms/Phrase kapitoly
155
Number of (documents) 72
literatura
103
69
zaver
88
64
cile
87
63
doporucuji
70
63
obhajob
73
59
zpracovani
83
58
casti
115
57
citac
67
54
znamka
53
53
uroven
71
52
navrzena
60
48
zdroje
84
47
systemu
106
45
povrchni
49
44
reseni
60
42
pouzitou
46
38
vyznam
44
38
rozsah
39
38
konzultac
46
36
provedeni
36
35
stylisticka
57
34
uprava
44
34
nevysvetluj
33
28
student
33
27
formalni
31
27
navrzena znamka velmi dobre
27
27
spravnou popi
28 31
26 24
Example kapitoly
obhajobe
citace
konzultace
nevysvetluje
popis
Analýza textu (text mining) pomocí vybraného softwaru
Přílohy
chybi
31
23
vyborn
27
23
vyborne
gramatick
25
23
gramaticke
odkaz
29
22
konkretnejsi
28
22
analyzu
25
22
nekomentuj
25
22
pojem
35
21
nenavrhuj
28
21
aplikaci
27
21
strucni
26
21
studentka
24
21
navrzena znamka dobre
21
21
neodborn
27
20
neodborne
pozadavki
24
20
pozadavky
stranek
34
19
navrzena znamka vyborne
19
19
vysledki
21
18
vysledky
problematiki
19
18
problematiky
obsahu
31
17
porovnani
24
17
nepropojen
22
17
seznam
19
17
uvodem
18
16
dokumentu
24
15
odbornem
16
15
zbytecn
16
14
zbytecne
neprehledn
15
14
neprehledne
vyberu
15
14
mista
14
14
smysl
14
14
isbn
20
13
php
17
13
zpusob
17
13
nekomentuje
nenavrhuje
strucny
Analýza textu (text mining) pomocí vybraného softwaru
Přílohy
tvrzeni
15
13
zkratek
15
13
tabulek
14
13
dosazen
13
13
preklepy
13
13
navrhu
20
12
problemu
15
12
nepresnosti
14
12
popisni
13
12
popisny
obrazki
12
12
obrazky
uvedenych
14
11
male
13
11
pocet
13
11
apod
12
11
prehl
12
11
vetsi
12
11
moznost
11
11
procesi
15
10
procesy
opsan
13
10
opsane
webovych
13
10
udaju
12
10
poznatki
11
10
pusobi
11
10
neobvykl
10
10
neobvykle
predlozen
10
10
predlozene
shrnuti
10
10
uvest
11
9
vlastniho
11
9
chybami
9
9
gramatickych chyb
9
9
pravopisne chyby
9
9
preklepy
prehled
poznatky
Analýza textu (text mining) pomocí vybraného softwaru
Příloha č. 6. Vybrána slova a slovní spojení, se kterými mělo smysl pracovat v dalším průběhu práce:
Terms/Phrase
Number of (documents)
kapitoli
72
literatura
69
zaver
64
doporucuji
63
obhajob
59
zpracovani
58
citac
54
zdroje
47
povrchni
44
rozsah
38
konzultac
36
nevysvetluj
35
stylisticka
34
gramaticke chybi
28
formalni
27
navrzena znamka velmi dobre
27
student
27
gramatick
23
vyborn
23
analyzu
22
odkaz
22
postradam komentar
22
navrzena znamka dobre
21
nenavrhuj
21
strucni
21
studentka
21
neodborn
20
navrzena znamka vyborne
19
Přílohy
stranek
Analýza textu (text mining) pomocí vybraného softwaru
19
nepropojen
17
uvodem
16
neprehledn
14
zbytecn
14
isbn
13
preklepi
13
zkratek
13
nepresnosti
12
popisni
12
neobvykl
10
opsan
10
formalni nedostatky
8
klise
8
nesplnil
8
opakuji
8
vhodnejsi
8
interpunkc
7
metodic
7
narychlo
7
necitelni
7
neprokazat
7
nespravn
7
nevhodna
7
odklon
7
typografick
7
neocislovan
6
fakta neusporadan
5 5
nadhl
4
nedoporucuji nefunkcni nevyhovel prilohi subjektivnost
4 4 4 4 4
Přílohy
vypocet anglicka
Analýza textu (text mining) pomocí vybraného softwaru
4 3
chybi vysvetleni
3
formalni zpracovani
3
neprinasi
3
nerelevantni
3
nesrovnalosti
3
uvedeni zdroje
3
autorskeho
2
chybi popis
2
hovorovi
2
konkretnich faktografickych
2
navrzena znamka nevyhovel
2
nejednotn
2
nepromyslen
2
nic noveho
2
porusovani
2
postradam odkazy
2
zarazena
2
Přílohy
Analýza textu (text mining) pomocí vybraného softwaru
Příloha č. 7 chyby seskupeny do tříd podle jejich charakteru (manuální práce): Vzhledem k rozsahu přílohy je příloha v elektronické formě na CD.
stručné teoretické informace v úzkém záběru prováděné analýzy množství gramatických chyb
jednotlivé části velmi stručné hlubší zhodnocení
je velice krátká
zestručněná
širšího záběru
gramatické chyby
překlepy
četné překlepy
závěry autora v kapitole 10 jsou zatíženy subjektivností práce vznikala narychlo Pojem nepřesně vymezen
gramatická chyba ve shodě přísudku s podmětem Práce obsahuje překlepy
hlubším studiu problematiky obsahuje zbytečné gramatické chyby Překlepy
subjektivní volby
Zbytečně se opakují vysvětlení
Obr č. 4 architektura klient server není přesný neobsahují vlastní poznatky a zhodnocení myšlenky se opakují stále dokola
žádné zásadní poznatky jsou doslovným přepisem textu
velmi všeobecnými poznatky práce je opsána z uvedených zdrojů
neobjevuje se zdůvodnění výběru uvést rádný popisek obrázku a jejich císlování neobsahuje dostatečně jasné vysvětlení Postrádám čitelnější text obrázků práce připomíná spíše návod informace nejsou úplně správně
Postrádám odůvodnění volby Chybí popisy obrázků a grafů.
Chybí také shrnutí vlastního prínosu
Přílohy
nepřesné vyjádření
nepřesností
neobsahuje žádné vlastní závěry
není patrné, co je autorovo vlastní tvrzení opakující se zbytečně objevují myšlenky tytéž zdroje opakovaně nepřináší nic nového zbytečná klišé opisný styl
obsahuje doslovnou verzi textu z webových stránek
chybí popis metod
chybí vysvětlení výhody
zkratky nejsou vysvetleny
obtížně čitelné
špatně čitelné ilustrační obrázky
jako manuál k jazyku Kapitola 8 působí PHP jako návod. K faktickým nepřesnostem až
podrobnější objasnění
připomíná spíše pracovní deník
Analýza textu (text mining) pomocí vybraného softwaru
nesprávnostem
nic konkrétního autorka bohužel neuvádí
Málo konkrétních faktografických údajů
nestihl ověřit.
předložená fakta nejde ověřit Postrádám vyšší nadhled nad popisovanou problematikou. Postrádám seznam zkratek a použitého značení.
Postrádám nadhled nad zpracovávanou problematikou špatny přehled všech zkratek v textu používaných nepodařilo vytvořit funkční aplikaci Přílohy práce nejsou dostatečně propojeny s textem práce nepřehledná
stylistická nešikovnost
Přílohy
nepodařilo vytvořit funkční aplikaci Tyto analýzy a jejich výsledky však nejsou nijak propojeny velice obtížně orientovat není napsaná jednotným stylem
nedostatek konkrétních faktografických údajů očekával zásadnější rozpracování probírané problematiky
nepodařilo vytvořit funkční aplikaci Měla obsahovat explicitnější propojení s teoretickou částí Vypracovaná bakalářská práce je nepřehledná formální úprava práce
nevěnoval dostatečnou pozornost tomuto problému
Postrádám souvislý závěr práce. Text je málo přehledný nadpis končí stránku
Analýza textu (text mining) pomocí vybraného softwaru
Příloha č.8 Tabulka nejčastějších chyb. Manuální zpracovaní: Název
počet
stylisticke chyby
29
pravopisné chyby
27
nesprávne citovaná literatura
16
povrchní rozbor
15
chybí komentář
13
stručnost
12
není uveden odkaz na literaturu
10
nepresnosti
9
popisny text
8
chybí závěr práce
8
překlepy
7
chybí vlastní názor
7
opsane
7
chybná interpunkce
7
členění kapitol není logické
7
obrazky
7
chybí vysvetlení
6
nepřehlednost
6
absenci odborného stylu
6
Nesplnění cíle práce
6
chybí uvedení zdroje dat
6
Seznam literatury není řádně zpracovaný
6
opakovaní
5
nic noveho
5
Přílohy
Analýza textu (text mining) pomocí vybraného softwaru
není nadhled nad problematikou
5
není souvislost
5
Nesrovnalosti
5
není
řádně
odkazováno
na
použitou 5
literaturu chyby
5
odklon od tematu
5
chybí popis
4
nečitelne
4
malo faktu
4
nepodařilo vytvořit funkční aplikaci
4
nízká uroveň práce
4
šptana práce s literaturou
4
přílohy očíslovány nejsou
4
práce s právnímí předpisy.
4
subjektivnost
3
není oduvodneni
3
fakt.chyby
3
problém s ověřením
3
špatny přehled zkratek
3
chybí navrh řešení
3
malo citací
3
netechnické vyjadřování
3
typografické nedostatky
3
zbytečností
3
není vysvětlení pojmů
3
nevhodně zvolené metodiky
3
Přílohy
databáze
Analýza textu (text mining) pomocí vybraného softwaru
3
časové tísni
2
nepracuje s odbornou literaturou
2
neprůkazné citování zdrojů
2
nerelevantni citace
2
Text abstraktu obsachuje chyby
2
bez konzultací s vedoucím práce
2
bez vhodného úvodu
2
chybné použití pojmů
2
reseni
2
anketa
2
Stránky nejsou číslované
2
Přílohy
Analýza textu (text mining) pomocí vybraného softwaru
Příloha č. 9 chyby vyskytující se zřídka:
není patrné, které parametry se nastavují a jak. postrádám umořovací plány postrádám zachycení postupu implementace postrádám ukazatele tržní hodnoty, ukazatele EVA není provedená procesní analýza že nebyly zcela využity možnosti komparační analýzy byla použita jen základní metodika nebyly použity indexy efektivnosti chyba v hierarchii Chybí podepsané prohlášení
používá sekundární citace
Přílohy
Analýza textu (text mining) pomocí vybraného softwaru
Příloha č. 10 Srovnávací tabulka:
Terms/Phrase
Documents Počet
stylisticka
34
gramaticke chyby
28
citac
54
povrchni
44
postradam komentar
22
strucny
21
postradam odkazy
2
nepresnosti
12
popisni
12
zaver
64
preklepi
13
opsan
10
interpunkce
7
chybi vysvetleni nevysvetluj
3 28
neprehledn
14
neodborn
20
nesplnil postradam odkazy uvedeni zdroje literatura
8 2 3 69
opakuji
8
nic noveho
2
nadhled
4
nepropojen nesrovnalosti
17 3
Název chyb 29 stylisticke chyby 27 pravopisné chyby 16 nesprávne citovaná literatura
15 13 12 10 9 8 8 7 7 7
povrchní rozbor
6 6 6 6
chybí vysvetlení
chybí komentář stručnost není uveden odkaz na literaturu nepresnosti popisny text chybí závěr práce překlepy opsane chybná interpunkce
nepřehlednost absenci odborného stylu Nesplnění cíle práce chybí uvedení zdroje dat
6 6 Seznam literatury není řádně zpracovaný 5 opakovaní 5 nic noveho
5 5 5 5
není nadhled nad problematikou není souvislost Nesrovnalosti
nespravn
7
chybi popis
2
není řádně odkazováno na použitou literaturu 5 chyby 4 chybí popis
necitelni
7
4 nečitelne
fakta konkretnich faktografickych
5 2
4 malo faktu
odkaz
Přílohy
22
nefunkcni
Analýza textu (text mining) pomocí vybraného softwaru
literatura
4
69
odklon
7
neocislovan
6
subjektivnost
4
fakta
5
neprokazat
7
nenavrhuj
21
citac
54
hovorovi
2
zbytecn
14
chybi vysvetleni nevysvetluj nevhodna
3 28 7
databaz
8
narychlo
7
neprokazat
7
nerelevantni
3
neodborn
20
konzultac
36
chybn
4
neocislovan
6
Přílohy
4 nepodařilo vytvořit funkční aplikaci 4 šptana práce s literaturou 5 odklon od tematu
4 3 3 3 3 3 3 3 3
přílohy očíslovány nejsou
3 3 2 2 2 2 2 2 2
nevhodně zvolené metodiky databáze
subjektivnost fakt.chyby problém s ověřením chybí navrh řešení malo citací netechnické vyjadřování zbytečností není vysvětlení pojmů
časové tísni neprůkazné citování zdrojů nerelevantni citace nepracuje s odbornou literaturou bez konzultací s vedoucím práce chybné použití pojmů Stránky nejsou číslované
Analýza textu (text mining) pomocí vybraného softwaru
Priloha č. 11 chyby, které text miner nenašel, ale manuální analýzou textu nalezeny byly: Chyba BP
Počet
členění kapitol není logické
7
Obrázky
7
není odůvodnění
3
nízká úroveň práce
4
práce s právními předpisy.
4
špatný přehled zkratek
3
Text abstraktu obsahuje chyby
2
typografické nedostatky
3
bez vhodného úvodu
2
Řešení
2
Anketa
2
chybí vlastní názor
7
Přílohy
Analýza textu (text mining) pomocí vybraného softwaru Stránky nejsou číslované chybné použití pojmů bez konzultací s vedoucím práce nepracuje s odbornou literaturou nerelevantni citace neprůkazné citování zdrojů časové tísni databáze nevhodně zvolené metodiky metodické není vysvětlení pojmů chybné vysvětlení zbytečností netechnické vyjadřování malo citací chybí navrh řešení problém s ověřením fakt.chyby subjektivnost přílohy očíslovány nejsou odklon od tematu šptana práce s literaturou nepodařilo vytvořit funkční aplikaci malo faktu fakta nečitelne chybí popis chyby není řádně odkazováno na použitou… Nesrovnalosti není souvislost není nadhled nad problematikou nic noveho opakovaní Seznam literatury není řádně zpracovaný chybí uvedení zdroje dat postrádám odkazy Nesplnění cíle práce absenci odborného stylu nepřehlednost chybí vysvetlení chybí vysvětlení chybná interpunkce opsane překlepy chybí závěr práce popisny text nepresnosti není uveden odkaz na literaturu stručnost chybí komentář povrchní rozbor nesprávne citovaná literatura pravopisné chyby stylisticke chyby 0
Přílohy
Graf č. 2
Manuální zpracování Textminer
osa x= počet výskytů chyb uvedených na ose y v dokumentech 10
20
30
40
50
60
70
80