Strojové učení a pravidla pro extrakci informací z textů Barbora Hladká Ústav formální a aplikované lingvistiky MFF UK http://ufal.mff.cuni.cz Machine Learning Meetups, 2. prosince 2015
Pozvánka Jako výzkumníci jsme přistoupili k vývoji systémů extrakce informací z textů legislativní a environmentální domény. V prezentaci systémy představíme a podělíme se o zkušenosti z jejich vývoje. Zaměříme se na alternativy strojové učení vs. pravidla a surové texty vs. texty obohacené o informace. Aspekty správy systémů a způsobu hodnocení jejich kvality budou rovněž diskutovány. 2
Děkuji
Vincentu Krížovi, Ivaně Lukšové, Bohdanu Maslowskému a Sysnet, s.r.o.
Sysnet, s.r.o. byl průmyslovým partnerem v projektu INTLIB
3
Ústav formální a aplikované lingvistiky učí počítače nejen česky.
Zdroj: http://hobby.idnes.cz/ 4
ÚFAL Lingvistika na matfyzu
5
ÚFAL formální lingvistika
aplikovaná lingvistika*
propozice sémantém
TR věta větný člen
VČR formém
data
nástroje
séma morfém
MR morf
morfoném
MFR foném
(Sgall, 1967)
text a řeč
dist. rys
FR
*Počítačová lingvistika nebo komputační lingvistika nebo počítačové zpracování přirozeného jazyka nebo jazykové technologie.
6
Schéma extrakční úlohy Extrakce informací z textů
myšlenka data obohacení
jazyk
více dat
extrakce entity
vztahy
evaluace 7
Schéma extrakční úlohy Formulace zadání extrakční úlohy Extrakce čeho z čeho
Rešerše existujících řešení Data – kde a jak získat
myšlenka data obohacení
jazyk
více dat
extrakce entity
vztahy
evaluace 8
Schéma extrakční úlohy Data z technického pohledu Více zdrojů, více formátů
Volba interní datové reprezentace
myšlenka data obohacení
jazyk
více dat
extrakce entity
vztahy
evaluace 9
Schéma extrakční úlohy Jazyk ~ počítačové zpracování přirozeného jazyka (dále NLP) obohacení surového textu o jazykovědné informace
Více dat ~ datové zdroje Slovníky, číselníky, …
myšlenka data obohacení
jazyk
více dat
extrakce entity
vztahy
evaluace 10
obohacení
NLP
jazyk
více dat
Platforma Treex MorphoDita Morfologie (tvarosloví) Trénováno na PZK
MST parser Syntax (větný rozbor) Trénováno na PZK
NameTag
TR věta větný člen
VČR formém
séma morfém
MR morf
morfoném
MFR foném
dist. rys
Pojmenované entity Trénováno na CNEC http://ufal.mff.cuni.cz/treex, Pražský závislostní korpus (PZK), Czech Named Entity Corpus (CNEC)
11
obohacení
NLP jazyk MorphoDiTa & MST parser
http://ufal.mff.cuni.cz/tools/treex-web, MorphoDiTa
více dat
12
NLP NameTag
http://ufal.mff.cuni.cz/nametag
obohacení jazyk
více dat
13
Schéma extrakční úlohy Specifikace entit Specifikace vztahů (relací) mezi entitami
myšlenka data obohacení
jazyk
více dat
extrakce entity
vztahy
evaluace 14
Schéma extrakční úlohy Akademická evaluace Uživatelská evaluace
myšlenka data obohacení
jazyk
více dat
extrakce entity
vztahy
evaluace 15
Extrakční systém myšlenka data obohacení
jazyk
více dat
extrakce entity
vztahy
evaluace 16
Extrakce informací z textů Domény Legislativní Zákony, vyhlášky (dále zákony) Soudní rozhodnutí (dále judikáty)
Environmentální Záměry EIA (dále záměry)
17
Zákony §3 … (2) Účetním obdobím je nepřetržitě po sobě jdoucích dvanáct měsíců, není-li dále stanoveno jinak. Účetní období se buď shoduje s kalendářním rokem nebo je hospodářským rokem. … § 12 … (2) Účetní jednotky jsou povinny provádět účetní zápisy průběžně v účetním období po vyhotovení účetního dokladu takovým způsobem, který neohrozí splnění požadavků rovněž jiných právních předpisů. …
myšlenka data obohacení
jazyk
více dat
extrakce entity
vztahy
evaluace Zdroj: Předpis č. 563/1991 Sb. (Zákon o účetnictví)
18
Zákony
myšlenka
Práva a povinnosti (2) Účetní jednotky jsou povinny provádět účetní zápisy průběžně …
Definice pojmů (2) Účetním obdobím je nepřetržitě po sobě jdoucích dvanáct měsíců, …
19
Zákony
data
Sbírka zákonů ČR zakonyprolidi.cz
Konverze do interního XML
20
Zákony
obohacení jazyk
více dat
Morfologie Syntax
21
Zákony
obohacení jazyk
více dat
Slovník entit Entity z Vyhlášky o účetnictví ručně v editoru brat
Předpis č. 500/2002 Sb. http://brat.nlplab.org/
22
Zákony
extrakce entity
vztahy
Entity dle slovníku Vztahy Subjekt, predikát, objekt Entita má právo … Entita má povinnost … Entita je …
23
Zákony – extrakční systém myšlenka data obohacení
jazyk
více dat
extrakce entity
vztahy
evaluace Demo: http://quest.ms.mff.cuni.cz:14280/
24
Zákony
obohacení jazyk
více dat
MorphoDiTa a MST Parser jsou natrénované na publicistických textech Rozdíly v doménách Úspěšnost MST Parseru na zákonech měřená na Czech Legal Text Treebank 80% 85% na PZK https://ufal.mff.cuni.cz/czech-legal-text-treebank
25
Zákony Pravidlová segmentace
26
Zákony Pravidlová re-tokenizace
27
Zákony
extrakce entity
vztahy
Extrakční pravidla Grafický editor PML-TQ
http://ufal.mff.cuni.cz/pmltq/
28
Zákony
evaluace
Akademická ručně identifikované entity a vztahy mezi nimi ve Vyhlášce o účetnictví Extrakce entit recall 91%, precision 57% Extrakce vztahů recall 63%, precision 80%
Uživatelská Dosud neproběhla 29
datum poučení odůvodnění výrok úvod
Judikáty ČESKÁ REPUBLIKA ROZSUDEK JMÉNEM REPUBLIKY Nejvyšší správní soud rozhodl v senátu složeném z předsedy JUDr. Jana Passera … se zrušuje a věc se vrací tomuto soudu k dalšímu řízení. Odůvodnění : I. Rozhodnutím ze dne 30. 11. 2005, čj. 16/94068/2005/1327, žalovaný zamítl odvolání žalobce a potvrdil … Poučení: Proti tomuto rozsudku nejsou opravné prostředky přípustné.
V Brně 22. září 2010
Zdroj: url
myšlenka data obohacení
jazyk
více dat
extrakce entity
vztahy
evaluace 30
Judikáty
myšlenka
Dostupnost judikátů zveřejňování
31
Judikáty
myšlenka
Informace o účastnících Nejvyšší správní soud rozhodl v senátě složeném z předsedy JUDr. Radana Malíka a soudkyň Mgr. Daniely Zemanové a JUDr. Barbary Pořízkové v právní věci stěžovatele Ing. V. K., … role-soudce
JUDr. Radan Malík
role-soudce
Mgr. Daniela Zemanová
role-soudce
JUDr. Barbara Pořízková
role-žalobce
Ing. V. K. 32
Judikáty Judikáty ze dvou advokátních kanceláří 191 + 191 pdf txt Anotace entit v editoru brat
data
Role
Soudce Žalobce Žalovaný Právní zástupce Rozhodující orgán …
1/3 ručně 2/3 ruční kontrola automatické procedury 33
Judikáty
data
Proložená slova Pravidlová detekce proloženého textu Pravidlová segmentace textu Externí slovník ve formátu Hunspell Slovník příjmení Českého statistického úřadu Pravidlové generování možných tvarů příjmení Evaluace na testovacím vzorku I. Kasační stížnost s e z a m í t á . II. Žalobci s e n e p ř i z n á v á právo na náhradu nákladů řízení o kasační stížnosti. 34
Judikáty
obohacení jazyk
více dat
NameTag
35
Judikáty
obohacení jazyk
více dat
Seznam příjmení Českého statistického úřadu* Adresy firem ze seznamu RÚIAN** Databáze IČO***
*url, ** Registr územní identifikace, adres a nemovitostí url, ***url
36
Judikáty
extrakce entity
vztahy
Entity Typy entit – účastníci řízení (osoba, firma, …)
Vztahy Role entit (žalobce, odpůrce, …)
37
Judikáty – extrakční systém myšlenka data obohacení
jazyk
více dat
extrakce entity
vztahy
evaluace Demo: http://courtdoc.praetoris.cz/
38
extrakce entity
vztahy
Judikáty – extrakční systém Pravidla Extrakce typů entit a rolí Strojové učení NameTag+SVM NameTag extrahuje typy entit SVM detekuje jejich role Hybridní Pravidla extrahují typy entit a role NameTag je používá jako příznaky 39
Judikáty
evaluace
Pravidla
40 Zdroj výsledků: (Maslowski, 2015)
evaluace
Judikáty Strojové učení
Zdroj výsledků: (Maslowski, 2015) 41
evaluace
Judikáty Strojové učení
Zdroj výsledků: (Maslowski, 2015)
42
evaluace
Judikáty Hybridní
Zdroj výsledků: (Maslowski, 2015)
43
extrakce entity
vztahy
Judikáty – extrakční systém Normalizace Jména osob MorphoDiTa Extrahovat lemmata
Jména soudů pravidla
Adresy pravidla
44
Záměry Golfové hřiště ZÁMECKÝ GOLF PRAHA v Praze 9-Vinoři Oznámení záměru podle přílohy 3. zákona č. 100/2001 Sb., o posuzování vlivů na životní prostředí a o změně některých souvisejících zákonů, ve znění zákona č. 93/2004 Sb. a zákona č. 163/2006 Sb. … Areál golfového hřiště ZÁMECKÝ GOLF PRAHA bude realizován na celkové ploše cca 60,5 ha. Bude zde vybudováno 18jamkové golfové hřiště. … Provoz 18jamkového hřiště bude zajišťovat 5 stálých a 9 sezónních zaměstnanců.
myšlenka data obohacení
jazyk
více dat
extrakce entity
Zdroj: http://portal.cenia.cz/eiasea/detail/EIA_PHA486
vztahy
evaluace 45
Záměry
myšlenka
Oznámení záměru, Stanovisko, Stanovisko Natura Základní údaje o záměru Údaje o vlivech a výstupech Závěrečné stanovisko Struktura dána zákonem, nedodržuje se 46
Záměry
myšlenka
Kvantifikované údaje Provoz 18jamkového hřiště bude zajišťovat 5 stálých a 9 sezónních zaměstnanců. pracovní pozice hřiště 5 stálých zaměstnanců 9 stálých zaměstnanců
47
data
Záměry Záměry ze systému EIA* doc, pdf Sekce B.I.2
Konverze do interního XML
*url
48
Záměry
obohacení jazyk
více dat
MorphoDita
49
Záměry
obohacení jazyk
více dat
50
Záměry
extrakce entity
vztahy
Entity dle slovníku Vztahy kvantifikace Kapacita mlékárenské části bude 370.000 l zpracovaného mléka.
51
Záměry – extrakční systém myšlenka data obohacení
jazyk
více dat
extrakce entity
vztahy
evaluace Demo: http://intlib.sysnet.cz:8080/1
52
Záměry – extrakční systém Platforma Gate Vzdálené volání Treex
https://gate.ac.uk/
53
extrakce entity
vztahy
Záměry – extrakční systém Pravidla – regulární výrazy
Kapacita mlékárenské části bude 370.000 l zpracovaného mléka.
(Veličina) (Entita) (Číslo) (Jednotka) (Adj.2. pád)? (Entita)
54
Záměry
evaluace
Akademická evaluace neproběhla Vývojářská evaluace Autoři slovníků na vybrané množině záměrů ručně kontrolovali výstup extraktoru
Uživatelská evaluace neproběhla
55
Závěrečný povzdech Rule-based Information Extraction is Dead! (Chiticariu , 2013)
56
Závěrečný povzdech Slovníky entit
Slovníky vazeb
extrakce
NLP
SU? Pravidla ?
uplatnění
Zákony
--
PML-TQ dotazy
?
?
Judikáty
--
--
SU, RV
50:50
?
Záměry
RV
?
57
Reference Chiticariu Laura, Li Yunyao, Reiss Frederick R. Rulebased Information Extraction is Dead! 2013. (url) Jägerová Tereza a kol. Metodika pro automatizované inteligentní vytěžování nestrukturovaných dat v environmentální doméně. 2014. (url) Kríž Vincent, Hladká Barbora. RExtractor: a Robust Information Extractor. 2015. (url) Maslowski Bohdan. Automatické zpracování českých soudních rozhodnutí. Diplomová práce, MFF UK, 2015.
58