Dolování z textu
Martin Vítek
Proč dolovat z textu
Obrovské množství materiálu v nestrukturované textové podobě – – – – –
knihy časopisy vědecké články sborníky konferencí internetové diskuse
Proč dolovat z textu
Není problém získat velké množství článků a informací, ale vybrat z nich ty zajímavé, vztahující se k nějakému problému
Rozdíl proti klasickému dolování znalostí z databází
Nevyhledává se ve strukturovaných tabulkách a nějak uspořádaných záznamech ale v prostém textu ve tvaru čitelném pro člověka.
Dolování v textu
Skládá se ze 3 částí – – –
předzpracování dolování dat upřesnění
Přístupy k dolování v textu
Tradiční přístup –
uživatel dopředu ví, co zhruba hledá, a umí systému předložit množinu dokumentů, které ho zajímají, jako vzorek.
Nový přístup – – – –
systém sám přebírá aktivitu předkládá návrhy uživateli uživatel systém pouze navádí systém sám provádí filtrování, uspořádávání, zobecňování, shlukování dokumentů
Čím je dolování v textu jiné
Významným rysem sbírky dokumentů je velké množství vlastností popisujících každý dokument. Typicky tisíce klíčových slov To je mnohem více než počty atributů analyzovaných při dolování z relačních databází
Čím je dolování v textu jiné
Tyto vlastnosti jsou zároveň velmi řídké – pouze malé % klíčových slov se objevuje v jednotlivých dokumentech Reprezentujeme-li článek vektorem, většina hodnot je 0
Vektorová reprezentace článku
Binární –
pokud se určité slovo v dokumentu vyskytuje více aspoň 1x, bude na jeho pozici ve vektoru 1, jinak tam bude 0.
Frekvenční –
na každé pozici vektoru je počet slova v dokumentu
Vektorová reprezentace článku
Reprezentace TF-IDF (term frequency – inverse document frequency) –
zohledňuje výskyty slova v textu a současně snižuje jeho důležitost podle množství výskytu v ostatních dokumentech
Hadamardova reprezentace –
Na i-tém místě ve vektoru bude normovaná frekvence slova v dokumentu násobená frekvencí slova v tréninkové množině
Metoda I.
Reprezentovat dokument jako vektor slov Hledat asociační pravidla Nevede k cíli. Nachází těžce interpretovatelná pravidla nebo příliš obecná pravidla ...
Metoda II.
Automatická konstrukce textových klasifikátorů Založeno na trénovacích článcích Použití statistických metod Učení Přiřazuje hodnocení novým neohodnoceným dokumentům na základě množiny už ohodnocených
Další metody
Ohodnocování článků podle trénovací množiny ohodnocené expertem Využití – – – – –
strojového učení neuronových sítí metody nejbližšího souseda naivního Bayesova klasifikátoru rozhodovacích stromů
Častý problém
Člověk si ukládá pouze informace pro něj zajímavé Nezajímavé ihned zahazuje Je potřeba mít vzorky zajímavých informací i nezajímavých
Metoda III.
Použití normalizovaných termů Term je sekvence jednoho nebo více slov spolu s určením slovního druhu
Příklad: banka/podstatné jméno roční/přídavné jméno
Extrakce termů
Jazykové odlišnosti
Je třeba se zabývat zvláštnostmi jazyka článku – – – – –
předpony a přípony různé pořadí slov ve větě pády množná čísla ...
Generování termů
Z jednotlivých termů se hledají složené termy, kterými se pak jednotlivé termy nahrazují. Různé kombinace – – –
podstatné jméno & podstatné jméno přídavné jméno & podstatné jméno .....
Příklad: diskontní sazba
Generování termů
Složené termy se mohou dále slučovat
Mnoho možností, které všechny dvojice zahrnout Stále otevřený problém pro výzkum
Filtrování termů
Fáze generování termů generuje termy bez ohledu na to, jestli jsou nějak charakteristické pro daný dokument. Cílem filtrace je redukce množství termů a výběr jen několika nejfrekventovanějších Je potřeba zahodit termy vyskytující se ve všech dokumentech s konstantním rozložením
Třídění termů
Vytvoření taxonomie termů Hledání asociačních pravidel Taxonomie slouží uživateli k zadávání úkolů pro dolování
Podpora produktu SAS Enterprise Miner pro dolování z textu
Nástroj SAS Text Miner –
http://www.sas.com/technologies/analytics/datami ning/textminer/
Transformuje textová data do jiného formátu umožňujícího třídit dokumenty do kategorií, klasifikaci dokumentů, vyhledávání vztahů mezi dokumenty Umí pracovat s textovými daty a současně se strukturovanými daty a integrovat je dohromady
Podpora produktu SAS Enterprise Miner pro dolování z textu
Určen pro každého, kdo musí zpracovat velká množství textů Podporuje všechny důležité formáty dokumentů (HTML, MS Office, Lotus, ASCII, PDF) Disponuje moduly a slovníky pro spoustu významných jazyků (čeština ne)
Podpora produktu SAS Enterprise Miner pro dolování z textu
Automatická extrakce termů z velkého množství dokumentů Rozlišení termů podle slovních druhů Disponuje slovníky termů z mnoha oblastí lidské činnosti Shlukování dokumentů o stejných tématech
Literatura
Han, J., Kamber, M.: Data Mining: Concepts and Techniques. Morgan Kaufmann Publishers, 2001, 550 p. Handbook of Data Mining and Knowledge Discovery. Oxford University Press 2002 Hroza, J.: Automatizovaná podpora filtrace elektronických textových dokumentů metodami strojového učení, teze disertační práce