Dolování z textu. Martin Vítek

Dolování z textu

Martin Vítek

Proč dolovat z textu

Obrovské množství materiálu v nestrukturované textové podobě – – – – –

knihy časopisy vědecké články sborníky konferencí internetové diskuse

Proč dolovat z textu

Není problém získat velké množství článků a informací, ale vybrat z nich ty zajímavé, vztahující se k nějakému problému

Rozdíl proti klasickému dolování znalostí z databází

Nevyhledává se ve strukturovaných tabulkách a nějak uspořádaných záznamech ale v prostém textu ve tvaru čitelném pro člověka.

Dolování v textu

Skládá se ze 3 částí – – –

předzpracování dolování dat upřesnění

Přístupy k dolování v textu

Tradiční přístup –

uživatel dopředu ví, co zhruba hledá, a umí systému předložit množinu dokumentů, které ho zajímají, jako vzorek.

Nový přístup – – – –

systém sám přebírá aktivitu předkládá návrhy uživateli uživatel systém pouze navádí systém sám provádí filtrování, uspořádávání, zobecňování, shlukování dokumentů

Čím je dolování v textu jiné

Významným rysem sbírky dokumentů je velké množství vlastností popisujících každý dokument. Typicky tisíce klíčových slov To je mnohem více než počty atributů analyzovaných při dolování z relačních databází

Čím je dolování v textu jiné

Tyto vlastnosti jsou zároveň velmi řídké – pouze malé % klíčových slov se objevuje v jednotlivých dokumentech Reprezentujeme-li článek vektorem, většina hodnot je 0

Vektorová reprezentace článku

Binární –

pokud se určité slovo v dokumentu vyskytuje více aspoň 1x, bude na jeho pozici ve vektoru 1, jinak tam bude 0.

Frekvenční –

na každé pozici vektoru je počet slova v dokumentu

Vektorová reprezentace článku

Reprezentace TF-IDF (term frequency – inverse document frequency) –

zohledňuje výskyty slova v textu a současně snižuje jeho důležitost podle množství výskytu v ostatních dokumentech

Hadamardova reprezentace –

Na i-tém místě ve vektoru bude normovaná frekvence slova v dokumentu násobená frekvencí slova v tréninkové množině

Metoda I.

Reprezentovat dokument jako vektor slov Hledat asociační pravidla Nevede k cíli. Nachází těžce interpretovatelná pravidla nebo příliš obecná pravidla ...

Metoda II.

Automatická konstrukce textových klasifikátorů Založeno na trénovacích článcích Použití statistických metod Učení Přiřazuje hodnocení novým neohodnoceným dokumentům na základě množiny už ohodnocených

Další metody

Ohodnocování článků podle trénovací množiny ohodnocené expertem Využití – – – – –

strojového učení neuronových sítí metody nejbližšího souseda naivního Bayesova klasifikátoru rozhodovacích stromů

Častý problém

Člověk si ukládá pouze informace pro něj zajímavé Nezajímavé ihned zahazuje Je potřeba mít vzorky zajímavých informací i nezajímavých

Metoda III.

Použití normalizovaných termů Term je sekvence jednoho nebo více slov spolu s určením slovního druhu

Příklad: banka/podstatné jméno roční/přídavné jméno

Extrakce termů

Jazykové odlišnosti

Je třeba se zabývat zvláštnostmi jazyka článku – – – – –

předpony a přípony různé pořadí slov ve větě pády množná čísla ...

Generování termů

Z jednotlivých termů se hledají složené termy, kterými se pak jednotlivé termy nahrazují. Různé kombinace – – –

podstatné jméno & podstatné jméno přídavné jméno & podstatné jméno .....

Příklad: diskontní sazba

Generování termů

Složené termy se mohou dále slučovat

Mnoho možností, které všechny dvojice zahrnout Stále otevřený problém pro výzkum

Filtrování termů

Fáze generování termů generuje termy bez ohledu na to, jestli jsou nějak charakteristické pro daný dokument. Cílem filtrace je redukce množství termů a výběr jen několika nejfrekventovanějších Je potřeba zahodit termy vyskytující se ve všech dokumentech s konstantním rozložením

Třídění termů

Vytvoření taxonomie termů Hledání asociačních pravidel Taxonomie slouží uživateli k zadávání úkolů pro dolování

Podpora produktu SAS Enterprise Miner pro dolování z textu

Nástroj SAS Text Miner –

http://www.sas.com/technologies/analytics/datami ning/textminer/

Transformuje textová data do jiného formátu umožňujícího třídit dokumenty do kategorií, klasifikaci dokumentů, vyhledávání vztahů mezi dokumenty Umí pracovat s textovými daty a současně se strukturovanými daty a integrovat je dohromady


Určen pro každého, kdo musí zpracovat velká množství textů Podporuje všechny důležité formáty dokumentů (HTML, MS Office, Lotus, ASCII, PDF) Disponuje moduly a slovníky pro spoustu významných jazyků (čeština ne)


Automatická extrakce termů z velkého množství dokumentů Rozlišení termů podle slovních druhů Disponuje slovníky termů z mnoha oblastí lidské činnosti Shlukování dokumentů o stejných tématech

Literatura

Han, J., Kamber, M.: Data Mining: Concepts and Techniques. Morgan Kaufmann Publishers, 2001, 550 p. Handbook of Data Mining and Knowledge Discovery. Oxford University Press 2002 Hroza, J.: Automatizovaná podpora filtrace elektronických textových dokumentů metodami strojového učení, teze disertační práce

Dolování z textu. Martin Vítek

Recommend Documents