Zadání semestrální práce IKTZ 2 letní semestr 2009/2010 Obecné zadání Dle zadání zpracujte data ze studie STULONG (soubory Entry a Contr). Práce je rozdělena do tří částí, které se řeší odděleně. Výstupem každé části bude výsledná zpráva popisující kroky zpracování dat, vyskytnuté problémy, jejich řešení a výsledky dané části úlohy. Jednotlivé části úlohy jsou: 1. 2. 3.
Příprava (analyzujte a předzpracujte) zadaných data pro úlohu získávání znalostí (nalezení vzájemných vztahů a souvislostí mezi jednotlivými atributy) a vytvoření datového souboru pro modelování. Na vytvořeném datovém souboru za použití metod symbolického modelování nalezněte vztahy a souvislosti mezi atributy. Vyberte nejsilnější z nich. Na základě vybraných vztahů (pravidel) vytvořte znalostní systém, který bude po dodání údajů schopen podpořit jednu z definovaných hypotéz (zamítnou druhou hypotézu).
Jednotlivé body zadání každé části a podmínky pro zpracování a odevzdání jsou uvedeny vždy v příslušném odstavci. Základní pokyny a informace Pročtěte si pečlivě údaje na stránce http://euromise.vse.cz/stulong/ (protože data jsou vztažena k původnímu popisu z roku 2004 čerpejte (validujte) v případě nesrovnalostí – více kódů, jiné četnosti, atributy nejsou v české verzi popsány, atd. – také z anglické verze popisu tohoto projektu z roku 2004, který je dostupný na http://euromise.vse.cz/challenge2004/index.html). Cíle studie, výběr populace, protokoly, rozdělení pro analýzu, atd. – naleznete pod položkou Metodika http://euromise.vse.cz/stulong/metodika/index.php?page=metodika. Pro dobré vyhodnocení a validaci dosažených výsledků je nezbytné znát některé již zjištěné výchozí informace o souvislostech jednotlivých atributů a jejich stavů, které najdete na http://euromise.vse.cz/stulong/znalosti/index.php?page=znalosti. Prostudujte zadaná data – veškeré informace o atributech naleznete na http://euromise.vse.cz/stulong/data/index.php?page=prvotni_data. Obecné pokyny ke zpracování a odevzdání
Veškeré úkony při zpracování dělejte tak, aby výsledek byl přehledný. Komentujte a pište si poznámky, velmi vám to pomůže při sepisování závěrečných zpráv. Pracujte samostatně! Práce je z velké části založena na experimentálním přístupu.
Každá zpráva by měla obsahovat odpovědi na body v zadání s vazbou na jejich provádění (v 1. části odkazy na příslušná místa v excelovském souboru, ve 2. a 3. části vložené výsledky a příklady řešení). Osnova zprávy by měla mít následující tvar: o Popis problematiky – příslušné části úlohy o Navržené a vybrané přístupy řešení (objasněte důvody vašich rozhodnutí) o Problémy a jejich řešení (objasněte důvody vašich rozhodnutí) o Dosažené výsledky o Diskuze o Zdroje Pište srozumitelně a věcně (není to slohová práce). Nezapomeňte, že problémy jsou to nejzajímavější, takže se o nich zmiňujte a diskutujte je. Závěry se snažte dělat jasné a podložené dosaženými výsledky. Diskuze slouží k zhodnocení nejen výsledků, ale také zvoleného postupu, možných a vybraných řešení.
Jednotlivé části úlohy: 1.
Pochopení a předzpracování dat - analýza a úprava dat 1.1.
Zadání i) Analyzujte a předzpracujte data ze souboru Entry.csv a) Vytvořte přehledné (grafické) zobrazení jednotlivých atributů (histogramy – diskutujte rozložení dat). b) Stanovte a zobrazte rozložení skupin (normální, riziková, patologická) (histogramy – diskutujte rozložení dat). c) Vytvořte grafické zobrazení atributů v závislosti na jednotlivých skupinách (histogramy – diskutujte rozložení dat). d) Detekujte chybějící hodnoty a chyby (odlehlé hodnoty, nesprávný formát hodnot) a rozhodněte o způsobu jejich ošetření. e) Rozhodněte o případném vynechání, sloučení a odvození atributů. f) U atributů, které to umožňují, stanovte (v souladu s rozložením dat) středních hodnoty, mediány, rozptyly, atd. g) Na základě předchozí analýzy promyslete vhodný intervaly diskretizace hodnot. h) Na základě předchozí analýzy upravte (vytvořte nový) datový soubor obsahující provedené úpravy. i) Diskutujte dosažené výsledky ii) Analyzujte a předzpracujte data ze souboru Contr.csv a) Vytvořte přehledné (grafické) zobrazení jednotlivých atributů. b) Stanovte rozložení skupin (normální, riziková, patologická). c) Detekujte chybějící hodnoty a chyby (odlehlé hodnoty, nesprávný formát hodnot) a rozhodněte o způsobu jejich ošetření.
d) Rozhodněte o případném vynechání, sloučení a odvození atributů. e) Určete trendy atributů pro jednotlivé skupiny. f) Hledejte významné změny trendů. g) Na základě předchozí analýzy promyslete vhodné intervaly diskretizace hodnot. h) Na základě předchozí analýzy upravte (vytvořte nový) datový soubor obsahující provedené úpravy.
2.
1.2.
Zpracování Pro tuto část úlohy budete používat program Microsoft Excel. Data jsou uložena ve formátu csv – tedy jsou v tomto programu rovnou otevřít. Soubor v Excelu by měl obsahovat list s původní datovou tabulkou, listy s vytvořenými grafy a jejich popisy (přehledně pro každý bod zadání) a list s upravenou datovou tabulkou, ze které bude vytvořen soubor pro systém WEKA (soubor typu arff).
1.3.
Odevzdání Odevzdávat bude soubor v Excelu, který bude obsahovat veškeré provedené analýzy (funkční vztahy) a závěrečnou zprávu obsahující stručný (max. 2 stránky) popis provedených kroků a hodnocení výsledků analýzy.
Modelování 2.1.
Zadání - Přehled analytických otázek: Následující analytické otázky se vztahují k souboru (tabulce) Entry. Na základě předchozího zpracování by měla být data předzpracována (odvozené atributy, vynechání atributů, doplnění hodnot). Dále s využitím výsledků z přechozí části úlohy předzpracuje data v systému WEKA (selekce atributů, diskretizace hodnot) a proveďte modelování. Všechny níže uvedené analytické otázky jsou též dostupné na http://euromise.vse.cz/stulong/a-otazky/index.php?page=otazky. i) Jaké jsou vztahy mezi sociálními faktory (viz atributy skupiny sociální charakteristiky) a následujícími charakteristikami mužů v jednotlivých skupinách? a) Tělesné aktivity v práci a ve volném čase (viz skupina atributů tělesné aktivity). b) Kouření (viz skupinu atributů kouření). c) Spotřeba alkoholu (viz skupina atributů alkohol). d) BMI (body mass index, BMI = váha v kg / (výška v m)2) (viz skupinu atributů fyzikální vyšetření). e) Krevní tlak (viz skupina atributů fyzikální vyšetření). f) Úroveň cholesterolu a trigliceridů (viz skupina atributů biochemické vyšetření).
ii) Jaké jsou vztahy mezi tělesnými aktivitami v práci a ve volném čase (viz skupina atributů tělesné aktivity) a následujícími charakteristikami mužů v jednotlivých skupinách? a) Kouření (viz skupina atributů kouření). b) Spotřeba alkoholu (viz skupina atributů alkohol). c) BMI (body mass index, BMI = váha v kg / (výška v m)2) (viz skupina atributů fyzikální vyšetření). d) Krevní tlak (viz skupina atributů fyzikální vyšetření). e) Úroveň cholesterolu a trigliceridů (viz skupina atributů biochemické vyšetření). f) Atributy biochemického vyšetření. iii) Jaké jsou vztahy mezi spotřebou alkoholu (viz skupina atributů alkohol) a následujícími charakteristikami mužů v jednotlivých skupinách? a) Kouření (viz skupina atributů kouření). b) BMI (body mass index, BMI = váha v kg / (výška v m)2) (viz skupina atributů fyzikální vyšetření). c) Krevní tlak (viz skupinu atributů fyzikální vyšetření). d) Úroveň cholesterolu a trigliceridů (viz skupina atributů biochemické vyšetření). iv) Jsou nějaké rozdíly mezi jednotlivými skupinami pacientů vzhledem k výše uvedeným relacím? Následující analytické otázky se vztahují k souborům (tabulkám) Entry a Contr. Pro otázky vi – x si prostudujte rozdělení pacientů podle nadváhy a krevního tlaku: http://euromise.vse.cz/stulong/a-otazky/index.php?page=sledovani2) v) Jsou nějaké rozdíly mezi muži z rizikové skupiny, kteří onemocněli některou ze sledovaných kardiovaskulárních onemocnění v průběhu dvaceti let a těmi, kteří zůstali zdraví? Kardiovaskulárních onemocnění se týkají atributy HODN1, ROK1, HODN2, ROK2, HODN3, ROK3, HODN11, ROK11, HODN12, ROK12, HODN13, ROK13, HODN14, ROK14, HODN21, ROK21, HODN23, ROK23, viz skupinu atributů dotazník A2. vi) Jsou tyto skupiny stabilní nebo mezi nimi pacienti migrují? vii) Které typy migarcí pacientů mezi skupinami existují. Kterých pacientů se migrace týkají? viii) Liší se jednotlivé skupiny pacientů vzhledem k lipidům (cholesterol, HDL, triglyceridy a LDL)? ix) Liší se jednotlivé skupiny pacientů vzhledem ke kombinaci zvýšené triglyceridy + nižší HDL cholesterol?
x) Liší se jednotlivé skupiny pacientů vzhledem k sociálním faktorům (viz atributy skupiny sociální charakteristiky), tělesným aktivitám (viz skupinu atributů tělesné aktivity), kouření (viz skupinu atributů kouření).
3.
2.2.
Zpracování Zpracování této části úlohy budete provádět v programu Microsoft Excel a systému WEKA (http://www.cs.waikato.ac.nz/ml/weka/). Jedná se o úlohu vyhledávání vztahů (asociace) mezi jednotlivými atributy – pro modely budete využívat asociačních pravidel nebo jiné symbolické modely. Velmi důležité je porozumět vytvořeným pravidlům a jejich hodnocení. Na základě těch totiž budete následně tvořit inferenční síť expertního systému a její parametry.
2.3.
Odevzdání Odevzdáte soubory arff použité k vašemu modelování a závěrečnou zprávu obsahující popis (max. 4 stránky) provedených kroků, parametrů předzpracování, použitých technik modelování, jejich parametrů a výběr výsledků analýzy se slovním hodnocením jednotlivých výstupů.
Tvorba „znalostního systému“ 3.1.
Zadání V této části úlohy byste měli využít výsledky z předchozích dvou částí.
3.2.
Zpracování
3.3.
Odevzdání