Dobývání znalostí z databází (MI-KDD) Přednáška číslo 9 – Využití doménových znalostí
(c) prof. RNDr. Jan Rauch, CSc. KIZI, Fakulta informatiky a statistiky VŠE zimní semestr 2011/2012
Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
Využití doménových znalostí Jsou naznačeny možnosti využití doménových znalostí při dobývání znalostí z databází.
K prezentaci jsou využita medicínská data STULONG. Projekt STULONG byl realizován na II. interní klinice 1. lékařské fakulty Univerzity Karlovy a ve Všeobecné fakultní nemocnice v Praze pod vedením Prof. MUDr. F. Boudíka, DrSc. ve spolupráci s MUDr. M. Tomečkovou, CSc. a Prof. MUDr. J. Bultasem, CSc. Data byla převedena do elektronické podoby Evropským centrem pro medicínskou informatiku,
statistiku a epidemiologii Univerzity Karlovy a Akademie věd ČR pod vedením Prof. RNDr. Jany Zvárové,DrSc., viz euromise.vse.cz/challenge2004/ .
MI-KDD P09– J. Rauch : Doménové znalosti
2
Využití doménových znalostí Vytvořeno s využitím článku
Rauch, J. - Šimůnek, M.: Applying Domain Knowledge in Association Rules Mining Process - First Experience. In: Foundations of Intelligent Systems Lecture Notes in Computer Science, 2011, Volume 6804/2011, 113-122. (viz též http://www.springerlink.com/content/x311835h07j27503/ )
MI-KDD P09– J. Rauch : Doménové znalosti
3
Využití doménových znalostí
• Data STULONG - použité skupiny atributů
• Příklad analytické otázky a její řešení pomocí procedury 4ft-Miner • Znalosti o vzájemném vlivu atributů uchovávané v systému LISp-Miner • Odfiltrování důsledků známého vzájemném vlivu atributů – příklad
MI-KDD P09– J. Rauch : Doménové znalosti
4
Data STULONG – matice dat Entry 1417 pacientů, viz http://euromise.vse.cz/challenge2004/data/entry/
MI-KDD P09– J. Rauch : Doménové znalosti
5
Data STULONG – použité skupiny atributů Osobní charakteristiky
Education
Marital_status Marital_status
Responsibility
BMI – 13
Problémy Diabetes – yes/30, no/1378 Infarction – yes/34, no/1378
Hypertension – yes/220, no/1192 Hyperlipidemia – yes/54, no/815
Výsledky vyšetření
Diast – 7
Syst – 9
Cholesterol – 10
MI-KDD P09– J. Rauch : Doménové znalosti
6
Analytická otázka – příklad Jsou v matici dat Entry nějaké zajímavé vztahy mezi kombinacemi osobních charakteristik a problémů pacienta na straně jedné a výsledků vyšetření na straně druhé?
?: Entry; Charakteristiky
? Entry; B (Charakteristiky)
MI-KDD P09– J. Rauch : Doménové znalosti
Problémy
B (Problémy)
Vyšetření
0.85, 30
B (Vyšetření)
7
Zadání pravidel relevantních k analytické otázce B(Charakteristiky) B(Problémy)
0.85,30
B(Vyšetření)
0.85,30
B(Charakteristiky)
B(Problémy)
MI-KDD P09– J. Rauch : Doménové znalosti
B(Vyšetření)
8
Zadání pravidel relevantních k analytické otázce
Intervaly délky 1 – 4 46 = 13+12+11+10
BMI – 13
Intervaly délky 1
13
Intervaly délky 2
12
MI-KDD P09– J. Rauch : Doménové znalosti
Intervaly délky 3
11
Intervaly délky 4
10
9
Zadání pravidel relevantních k analytické otázce
Diabetes(yes) Diabetes(yes) Hyperilipidemia (yes) Diabetes(yes) Hyperilipidemia (yes) Hypertension(yes) Diabetes(yes) Hyperilipidemia (yes) Hypertension(yes) Infarction(yes) Diabetes(yes) Hyperilipidemia (yes) Infarction(yes) Diabetes(yes) Hypertension(yes) Diabetes(yes) Hypertension(yes) Infarction(yes) Diabetes(yes) Infarction(yes) Hyperilipidemia (yes) Hyperilipidemia (yes) Hypertension(yes) Hyperilipidemia (yes) Hypertension(yes) Infarction(yes) Hyperilipidemia (yes) Infarction(yes) Hypertension(yes) Hypertension(yes) Infarction(yes) Infarction(yes)
MI-KDD P09– J. Rauch : Doménové znalosti
10
Zadání pravidel relevantních k analytické otázce Interval
Interval
Interval
Interval Interval Interval Interval Interval Interval Interval
Interval Interval Interval Interval
Interval
MI-KDD P09– J. Rauch : Doménové znalosti
11
Aplikace procedury 4ft-Miner Entry
generation + verification
MI-KDD P09– J. Rauch : Doménové znalosti
12
Výstup procedury 4ft-Miner 180* 106 verifikací
112 minut
123 pravidel
Problém – mnoho důsledků známého faktu: Když roste BMI, tak roste i diastolický tlak. BMI
MI-KDD P09– J. Rauch : Doménové znalosti
Diast
13
Detail výstupu
Vzdělání (vyučen, maturita)
BMI(23;27
MI-KDD P09– J. Rauch : Doménové znalosti
Hyperlipidemie
Infarkt
0.87,41
Diastolic 70,100)
14
Znalosti o vzájemném vlivu atributů uchovávané v systému LISp-Miner – příklady Když roste BMI tak roste i diastolický krevní tlak
Když roste BMI tak roste i šance na infarkt
Není známo
Pacienti s vyšším vzděláním mají nižší diastolický krevní tlak MI-KDD P09– J. Rauch : Doménové znalosti
Pacienti s vyšším vzděláním mají nižší BMI 15
Doménové znalosti - příklady využití • Formulace analytické otázky • Formalizované prvky doménové znalosti převedeme na množiny asociačních pravidel které lze chápat jako jejich důsledky. K tomu použijeme: – konzultace s doménovými experty
– dedukci mezi asociačními pravidly
• Množiny asociačních pravidel – důsledky prvků doménových znalostí využíváme k – odfiltrování nezajímavých pravidel z výstupu – syntéze nových prvků doménové znalosti (ale opatrně)
MI-KDD P09– J. Rauch : Doménové znalosti
16
Analytická otázka s využitím doménové znalosti Jsou v matici dat Entry nějaké zajímavé vztahy mezi kombinacemi osobních charakteristik a problémů pacienta na straně jedné a výsledků vyšetření na straně druhé?
Nezajímají nás však důsledky známého faktu, že když roste BMI tak roste také diastolický krevní tlak.
?: Entry; (BMI Diast) Charakteristiky Problémy
?: Entry; (BMI B (Charakteristiky)
Diast) B (Problémy)
MI-KDD P09– J. Rauch : Doménové znalosti
Vyšetření
0.85, 30
B (Vyšetření) 17
Převod doménové znalosti na množinu pravidel Prvek doménové znalosti se převede na množinu pravidel, které lze chápat jako jeho důsledky. Jsou to: a) atomické důsledky – velmi jednoduchá pravidla určená expertem b) logické důsledky atomických důsledků s využitím dedukčních pravidel v logickém kalkulu asociačních pravidel c) přijímané důsledky – tedy pravidla, která expert určí jako nic nového neříkající pravidla a která lze chápat jako důsledky a) nebo b) i když z nich logicky nevyplývají.
MI-KDD P09– J. Rauch : Doménové znalosti
18
Atomické důsledky BMI p 0.85, Base
30
BMI(low)
Diastolic pro p, Base
BMI(medium) BMI(high)
BMI(low)
0.85, 30
Diastolic(low)
p, Base
Diastolic(medium)
p, Base Diastolic(hi
Diast(low)
BMI(16;21 BMI(21;22 BMI((21;22 , (22;23 ) MI-KDD P09– J. Rauch : Doménové znalosti
Diast 50;70) 0. 95,35 Diast( 50;70), 70;80) 0. 87,32 Diast 50;70) … 0.85,30
19
Logický důsledek atomického důsledku - příklady atomický důsledek: BMI(24,28 BMI(24,28 Entry
0.86,32
0.86, 32
Diast 80,100)
Diast 80,110) logicky plyne z BMI(24,28
Diast 80;100)
Entry
Diast 80;100)
0.86, 32
Diast 80,100)
Diast 80;110)
Diast 80;110)
BMI(24,28
a
b
BMI(24,28
a’
b’
BMI(24,28
c
d
BMI(24,28
c’
d’
a’ a a a b
BMI(24,28
0.86,32
0.86 a
Diast 80,110)
32
b’
b:
a' a ' b'
Diabetes (yes)
logicky plyne z BMI(24,28 MI-KDD P09– J. Rauch : Doménové znalosti
0.86 a' 32
0.86, 32
Diast 80,100) 20
Přijímaný důsledek - příklad Atomický důsledek: BMI(24,26
BMI(24,26
0.875, 42
Hyperlipidemia(yes)
neplyne logicky z BMI(24,28
0.875,42
Diast 70,100)
Infarction(yes) Diast 70,100)
0.875, 42
Diast 70,100)
ale neříká nic nového:
- má stejné parametry (konfidence = 0.875 and “Base” = 42 - týká se podmnožiny pacientů jichž se týká výchozí atomický důsledek
MI-KDD P09– J. Rauch : Doménové znalosti
21
Výstup procedury (připomenutí) 180* 106 verifikací
112 minut
123 pravidel
Problém – mnoho důsledků známého faktu: Když roste BMI, tak roste i diastolický tlak. BMI
MI-KDD P09– J. Rauch : Doménové znalosti
Diast
22
26 pravidel po odfiltrování důsledků BMI
16 důsledků BMI
Diast
Syst
Další výzkum pro potvrzení BMI
Syst
(pokud považováno za dosud neznáme, viz výše)
MI-KDD P09– J. Rauch : Doménové znalosti
23
Při tvorbě těchto elektronických podkladů pro výuku byly využity výsledky těchto projektů realizovaných na Vysoké škole ekonomické v Praze: • Projekt GAČR 201/08/0802 - Aplikace metod znalostního inženýrství při dobývání znalostí z databází • Projekt MŠMT ME 913 - Nové nástroje a teorie pro dobývání znalostí z databází
MI-KDD P09– J. Rauch : Doménové znalosti
24