Dobývání znalostí z databází MI-KDD ZS 2011 Cvičení 5
Startovní úloha Samostatná práce http://lispminer.vse.cz (c) 2011 Ing. M. Šimůnek, Ph.D. KIZI, Fakulta informatiky a statistiky, VŠE Praha
Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
Startovní úloha Samostatná práce http://lispminer.vse.cz M. Šimůnek
Startovní úloha Každému studentovi bude přiřazena startovní úloha týkající se matice dat Entry v souboru dat STULONG Úkoly: 1. 2. 3.
Vyřešit přiřazenou startovní úlohu pomocí procedury 4ft-Miner a podat o tom zprávu na systému SEWEBAR. Postupně samostatně rozšířit řešenou startovní úlohu tak, aby se procvičilo využití různých dalších možností procedury 4ft-Miner. Využít doménové znalosti tak, aby se modifikovalo zadání úlohy řešené v rámci bodu 2 a interpretace jejích výsledků.
MI-KDD C05 – M. Šimůnek: Startovní úloha
3
STULONG – skupiny atributů Tabulka 1 - Výchozí skupiny atributů číslo
Název
sloupce v Entry
Dílčí cedent - typ
1
Sociální
STAV, VZDELANI, ZODPOV
konjunkce
2
Aktivity
TELAKTZA, AKTPOZAM, DOPRAVA, DOPRATRV
konjunkce
3
Kouření
KOURENI, DOBAKOUR, BYVKURAK
konjunkce
4
Alkohol
ALKOHOL, PIVOMN, VINOMN, LIHMN
konjunkce
5
CKC
CUKR, KAVA, CAJ
konjunkce
6
Míry
BMI, TRIC, SUBSC
konjunkce
7
Tlaky
SYST2, DIAST2, SYST1 - SYST2, DIAST1 - DIAST2
konjunkce
8
Biochemie
CHLST, TRIGL, MOC
konjunkce
9
Rizika
RARISK, OBEZRISK, KOURRISK, HTRISK, CHOLRISK
konjunkce i disjunkce
10
Problémy
IM, HT, ICT, DIAB, HYPLIP
disjunkce
11
Bolesti
BOLHR, BOLDK, DUSNOST,
disjunkce
MI-KDD C05 – M. Šimůnek: Startovní úloha
4
Startovní úlohy – přidělení Číslo 1 2 3 7 8 9 13 14 15 19 20 21
ANTECEDENT Sociální Míry Míry Míry Sociální Biochemie Biochemie Biochemie Aktivity Tlaky Tlaky Tlaky Alkohol Míry Míry Míry
MI-KDD C05 – M. Šimůnek: Startovní úloha
SUKCEDENT Rizika - disjunkce Problémy Bolesti Rizika – disjunkce Problémy Bolesti Rizika – disjunkce Problémy Bolesti Rizika – disjunkce Problémy Bolesti 5
Postup řešení (1) Založit metabázi pro matici dat Entry viz slides 1 až 8 v http://lispminer.vse.cz/tutorial/t2.html
Vytvořit potřebné atributy ze sloupců matice dat Entry viz http://lispminer.vse.cz/tutorial/t3.html a Startovni uloha poznamky.doc
Vytvořit dva dílčí antecedenty, každý z jedné skupiny atributů určených pro antecedent a jeden dílčí sukcedent ze skupiny atributů určené pro sukcedent viz http://lispminer.vse.cz/tutorial/t4.html
Pro všechny vytvořené dílčí cedenty stanovit parametry takto: minimální délka = 1 maximální délka = počet atributů ve skupině booleovská operace s literály = konjunkce
Pro každý atribut použít typ koeficientu dle tabulky 3 v souboru Startovni uloha poznamky.doc
Téměř shodné české varianty výše zmíněných tutoriálů jsou v souborech LMDataSource.pdf a 4ft-Miner.pdf MI-KDD C05 – M. Šimůnek: Startovní úloha
6
Postup řešení (2) Postupně použít jednotlivé 4ft-kvantifikátory fundovaná implikace, AA-kvantifikátor, fundovaná ekvivalence a dvojitá fundovaná implikace podle Analyticke_otazky.pptx
Pro každý z výše uvedených 4ft-kvantifikátorů postupovat takto: slovně nazvat řešenou úlohu podle vzorů v Analyticke_otazky.pptx doladit parametry kvantifikátoru a případně koeficientů tak, aby vycházelo cca 20 pravidel případně vynechat kategorie, které jsou příliš frekventované (ženatý)
Na SEWEBARu stručně popsat provedenou úlohu tvorbu atributů, počáteční parametry koeficientů a jejich modifikace, charakterizovat výslednou množinu pravidel, uvést 2 až 3 příklady pravidel
Prohlížení výsledků procedury 4ft-Miner je popsáno v http://lispminer.vse.cz/tutorial/t5.html MI-KDD C05 – M. Šimůnek: Startovní úloha
7
Prohlášení Při přípravě těchto elektronických podkladů pro výuku byly využity výsledky následujících projektů realizovaných na Vysoké škole ekonomické v Praze: Projekt GAČR 201/08/0802 - Aplikace metod znalostního inženýrství při dobývání znalostí z databází Projekt MŠMT ME 913 - Nové nástroje a teorie pro dobývání znalostí z databází
MI-KDD C05 – M. Šimůnek: Startovní úloha
8