i
ii
České vysoké učení technické v Praze Fakulta elektrotechnická
DIPLOMOVÁ PRÁCE
Vyhodnocení výsledků srovnávací studie v rekondičním centru Petr Samek Vedoucí práce: Ing. Pavel Kordík, Ph.D. Studijní program: Elektrotechnika a informatika dobíhající magisterský Obor: Informatika a výpočetní technika Leden 2008
i
ii
Poděkování Děkuji všem, kteří mi morálně pomáhali, vytrvali a ve chvílích, kdy bylo potřeba, byli na blízku. Děkuji Báře a mé rozsáhlé rodině. iii
iv
Prohlášení Prohlašuji, že jsem svou diplomovou práci vypracoval samostatně a použil jsem pouze podklady uvedené v přiloženém seznamu. Nemám závažný důvod proti užití tohoto školního díla ve smyslu §60 Zákona č. 121/2000 Sb., o právu autorském, o právech souvisejících s právem autorským a o změně některých zákonů (autorský zákon). Ve Vimperku dne 10.1.2008 ……………………………………………………….. v
vi
vii
Abstract Tato práce je zaměřena na zpracování lékařských dat získaných v rekondičním centru III. interní kliniky 1. LF UK a VFN Praha během studia obézních pacientů. V práci je uveden přehled metod pro statistické vyhodnocení dat, a také přehled metod výpočetní inteligence. Výsledkem práce je pak analýza jednotlivých měřených parametrů a jejich vliv na změny hodnot hmotnosti, tuku a jiných parametrů. Druhá část práce je věnována možnosti stanovení predikčních rovnic pro sledované parametry na základě bazálních dat. Výsledky jsou interpretovány jak statisticky, tak pomocí vizualizačních metod neuronových sítí.
Abstract The aim of this diploma thesis is to analyse the data collected from pilot study "reconditioning of patients suffering from serious obesity" run 1st Medical Faculty of the Charles University in Prague. The results of the thesis discuss influence of measured variables to fat reduction and other parameters. In the second part of the thesis we try to identify the most accurate formula predicting parameters of interest based on variables measured during the initial examination of the patient. Data are analysed not only by statistical methods but also by means of methods from the computational intelligence domain and results are interpreted for the expert.
viii
Obsah 1
2
Úvod .................................................................................................................................... 1 1.1
Seznámení s problémem „srovnávací studie v rekondičním centru“ .......................... 1
1.2
Naše cíle ....................................................................................................................... 1
Statistika ............................................................................................................................. 3 2.1
Nejčastěji používané statistiky ..................................................................................... 3
2.1.1
Míry polohy ........................................................................................................... 3
2.1.2
Míry rozptýlení ..................................................................................................... 4
2.1.3
Empirická distribuční funkce ................................................................................ 4
2.1.4
Metody zobrazení kvantitativních dat .................................................................. 4
2.1.5
Kovariance a korelace ........................................................................................... 5
2.1.6
Náhodné výběry ................................................................................................... 6
2.1.7
Centrální limitní věta ............................................................................................ 7
2.1.8
Základní pravděpodobností rozdělení .................................................................. 7
2.2
Testování statistických hypotéz ................................................................................... 9
2.2.1
Obecný postup při testování hypotéz .................................................................. 9
2.2.2
Princip jednostranného testování ...................................................................... 10
2.2.3
Princip oboustranného testování ....................................................................... 11
2.2.4
Chyby ve statistickém usuzování ........................................................................ 11
2.3
Dvouvýběrové testy ................................................................................................... 12
2.3.1
Dvouvýběrový T test ........................................................................................... 12
2.3.2
Test shodnosti dvou rozptylů ............................................................................. 12
2.4
ANOVA (ANalysis Of Variance) ................................................................................... 13
2.4.1 2.5
3
PCA – Principle Component Analysis ......................................................................... 16
2.5.1
Vlastní vektor ...................................................................................................... 16
2.5.2
Výpočet PCA ....................................................................................................... 16
Metody výpočetní inteligence .......................................................................................... 17 3.1
Odvození analýzy rozptylu jednoduchého třídění .............................................. 13
Úvod do neuronových sítí .......................................................................................... 17
3.1.1
Učící a vybavovací fáze sítě ................................................................................ 18
3.1.2
Přehled typu sítí .................................................................................................. 18
3.1.3
Klasifikace versus shlukování .............................................................................. 19 ix
3.2
SOM – Self Organizing Map ....................................................................................... 19
3.2.1
Struktura ............................................................................................................ 19
3.2.2
Inicializace .......................................................................................................... 20
3.2.3
Učící fáze ............................................................................................................ 20
3.2.4
Stanovení kvality mapy ...................................................................................... 21
3.2.5
Vizualizace SOM ................................................................................................. 22
3.3
GAME ......................................................................................................................... 24
3.3.1
Vizualizace v GAME ............................................................................................ 25
3.4 Selekce významných příznaků (Feature selection) a jejich hodnocení (Feature ranking) ................................................................................................................................ 26
4
5
6
3.4.1
Analýza významných parametrů v GAME .......................................................... 26
3.4.2
WEKA .................................................................................................................. 27
Detailní seznámení s problémem „srovnávací studie v rekondičním centru“ ................. 31 4.1
Popis projektu rekondičního centra .......................................................................... 31
4.2
Databáze pacientů ..................................................................................................... 31
4.3
Sběr dat ..................................................................................................................... 32
4.4
Skupiny pacientů a jejich specifika ............................................................................ 33
4.5
Použitá výpočetní technika a programové vybavení ................................................ 33
4.6
Předzpracování dat .................................................................................................... 33
4.6.1
„Hrubé“ předzpracování dat – data clearing ..................................................... 33
4.6.2
Doplnění chybějících hodnot ............................................................................. 34
Zkušební databáze pacientů ............................................................................................ 34 5.1
Volba vhodných příznaků .......................................................................................... 34
5.2
Rozbor dat ................................................................................................................. 34
Analýza dat – kompletní databáze pacientů .................................................................... 36 6.1
Klasifikace dat a výběr signifikantních parametrů .................................................... 37
6.1.1
Klasifikace dle změny BMI .................................................................................. 37
6.1.2
Klasifikace dle BOH2_1 ...................................................................................... 41
6.1.3
Klasifikace dle ∆Kreatininu ................................................................................. 45
6.1.4
Shrnutí výsledků klasifikace ............................................................................... 48
6.2
Vyhodnocení vlivu BOH na vliv redukce hmotnosti .................................................. 48
6.2.1
Statistické testování ........................................................................................... 49 x
6.2.2
Vizualizace dat .................................................................................................... 51
6.2.3
Analýza v GAME .................................................................................................. 52
6.2.4
Shrnutí ................................................................................................................ 53
6.3
7
Predikce změn na základě bazálních hodnot ............................................................. 54
6.3.1
Analýza dle absolutní změny hmotnosti ............................................................ 54
6.3.2
Analýza dle klasifikace do skupin ....................................................................... 58
Závěr ................................................................................................................................. 61 7.1
Analýza signifikantních parametrů ............................................................................ 61
7.2
Vliv betahydroxybutyrátu (BOH) na redukci hmotnosti ............................................ 61
7.3
Predikční rovnice hmotnosti ...................................................................................... 61
7.4
Doporučení................................................................................................................. 62
Seznam použité literatury ........................................................................................................ 63 Přílohy .......................................................................................................................................... i Příloha A .................................................................................................................................. i Příloha B .................................................................................................................................. ii Příloha C ................................................................................................................................. iv Příloha D ................................................................................................................................. v
xi
Seznam obrázků Obrázek 2.1: Kvantitativní zobrazení dat pomocí histogramu s proložením křivky hustoty normálního rozdělení. ................................................................................................................ 5 Obrázek 2.2: Hustota pravděpodobnosti jednorozměrného normálního rozdělení a dvourozměrného normálního rozdělení. ................................................................................... 8 Obrázek 2.3: Princip testování jednostranného a oboustranného testu, ukázaný na normálním rozdělení. Hladina významnosti zvolena 0,05. .............................................. 10 Obrázek 3.1: Matematický model neuronu. ............................................................................ 17 Obrázek 3.2: Dva typy mřížek – hexagonální a pravoúhlá ....................................................... 20 Obrázek 3.3: Proces učení – adaptace vah .............................................................................. 20 Obrázek 3.4: Princip přizpůsobování BMU a jejich topologických sousedů vstupnímu vektoru. .................................................................................................................................................. 21 Obrázek 3.5: Matice vzdáleností ve 3D. Vizualizováno pomocí SOM toolboxu v programu Matlab ...................................................................................................................................... 22 Obrázek 3.6: Ukázka shlukové analýzy v SOM – U‐matice ...................................................... 23 Obrázek 3.7: Rozdíl mezi sítí MIA GMDH a GAME ................................................................... 24 Obrázek 3.8: Diabetická data – křížky reprezentují zdravé/léčené. Tmavé pozadí označuje členy skupiny „diabetici“. Modelováno GAME sítí. ................................................................. 25 Obrázek 3.10: Scatterplot matice zobrazující .......................................................................... 26 Obrázek 3.9: 3D vizualizace v GAME. ....................................................................................... 26 Obrázek 3.11: Obrázek 3: Ukázka uživatelského rozhraní nástroje WEKA .............................. 27 Obrázek 5.1: Porovnání U matice SOM dat, která se nepodařilo v SOM klasifikovat (a), a která jsou naopak zřetelně shlukované a lze je tedy klasifikovat (b). ............................................... 35 Obrázek 5.2: PCA projekce nesprávně klasifikovaných dat. Ve zvýrazněných elipsách se nacházejí nežádoucí shluky pacientů. ...................................................................................... 36 Obrázek 5.3: PCA projekce vhodně klasifikovaných dat. Z projekce dat je zřetelná klasifikace pacientů na skupinu A a B. ....................................................................................................... 36 Obrázek 6.1: U‐matice a PCA projekce dat rozdělených dle ∆BMI – bez rozdělení na pohlaví .................................................................................................................................................. 38 Obrázek 6.2: U‐matice a PCA projekce dat rozdělených dle ∆BMI –pouze ženy .................... 38 Obrázek 6.3: U‐matice a PCA projekce dat rozdělených dle ∆BMI –pouze muži .................... 39 Obrázek 6.4: Test středních hodnot skupin rozdělených dle ∆BMI ........................................ 40 Obrázek 6.5: Test rozptylů hodnot skupin rozdělených dle ∆BMI .......................................... 40 Obrázek 6.6: Box plot WEKA a GAME analýzy signifikantních parametrů .............................. 40 Obrázek 6.7: U‐matice a PCA vyfiltrovaných dat – bez rozdílu pohlaví ................................... 41 Obrázek 6.8: U‐matice a PCA projekce dat rozdělených dle BOH2_1 – bez rozdělení na pohlaví ...................................................................................................................................... 42 Obrázek 6.9: U‐matice a PCA projekce dat rozdělených dle BOH2_1 – pouze ženy .............. 42 Obrázek 6.10: U‐matice a PCA projekce dat rozdělených dle BOH2_1 – pouze muži ............ 42 Obrázek 6.11: Box plot WEKA a GAME analýzy signifikantních parametrů ............................ 43 xii
Obrázek 6.12: Test středních hodnot skupin rozdělených dle BOH2_1 ................................... 43 Obrázek 6.13: Test rozptylů hodnot skupin rozdělených dle BOH2_1 .................................... 44 Obrázek 6.14: U‐matice a PCA projekce již redukovaných dat rozdělených dle BOH2_1 – bez rozdělení na pohlaví ................................................................................................................. 44 Obrázek 6.15: U‐matice a PCA projekce hodnot rozdělených dle ∆Kreatininu – bez rozdělení na pohlaví ................................................................................................................................. 45 Obrázek 6.16: U‐matice a PCA projekce hodnot rozdělených dle ∆Kreatininu – pouze ženy . 45 Obrázek 6.17: U‐matice a PCA projekce hodnot rozdělených dle ∆Kreatininu – pouze muži 46 Obrázek 6.18: Box plot WEKA a GAME analýzy signifikantních parametrů ............................. 46 Obrázek 6.19: Test středních hodnot skupin dělených dle ∆kreatininu .................................. 47 Obrázek 6.20: Test rozptylů hodnot skupin dělených dle ∆kreatininu .................................... 47 Obrázek 6.21: U‐matice a PCA projekce hodnot s již redukovanými parametry rozdělených dle ∆Kreatininu – bez rozdělení na pohlaví.............................................................................. 48 Obrázek 6.22: Statistické testování rozdílů mezi středními hodnotami parametrů u skupin rozdělených dle ∆hmotnosti .................................................................................................... 50 Obrázek 6.23: Boxploty středních hodnot x_těl_tuku a VO2_max_kg u skupin rozdělených dle změny hmotnosti ...................................................................................................................... 51 Obrázek 6.24: 3D matice vzdáleností dat pacientů pro analýzu BOH včetně parametrů x_těl_tuku a VO2_max_kg (a), bez těchto parametrů (b). ....................................................... 51 Obrázek 6.25: U‐matice dat pacientů pro analýzu BOH včetně parametrů x_těl_tuku a VO2_max_kg (a), bez těchto parametrů (b). ............................................................................ 52 Obrázek 6.26: Vizualizace výsledků v GAME, multidimenzionální 2D klasifikace. ................... 52 Obrázek 6.27: Boxplot signifikance parametrů – včetně dominantních parametrů ................ 53 Obrázek 6.28: Boxplot signifikance parametrů – bez dominantních parametrů ..................... 53 Obrázek 6.29: Vizualizace výsledků lineárního modelu A. ....................................................... 55 Obrázek 6.30: Vizualizace výsledků lineárního modelu B. ....................................................... 56 Obrázek 6.31: Vizualizace výsledků nelineárního modelu A. ................................................... 56 Obrázek 6.32: Vizualizace výsledků nelineárního modelu B (Graf testovacích dat má jiné měřítko y‐osy v důsledku extrémní chyby. Proto jsou odchylky zdánlivě malé) ..................... 57 Obrázek 6.33: Analýza struktury rovnice v GAME. ................................................................... 58 Obrázek 6.34: Multidimenzionální 2D klasifikace nelineárního modelu B2. ........................... 60
xiii
Seznam tabulek Tabulka 2.1: Chyby při testování hypotéz ................................................................................ 11 Tabulka 2.2: Analýza rozptylu jednoduchého třídění .............................................................. 15 Tabulka 4.1: Seznam vyřazených parametrů pacientů. ........................................................... 34 Tabulka 6.1: Počty pacientů v jednotlivých skupinách BMI dle typu rozdělení dat. ............ 38 Tabulka 6.2: Seznam signifikantních parametrů dle ∆BMI ...................................................... 41 Tabulka 6.3: Počty pacientů v jednotlivých skupinách BOH2_1 dle typu rozdělení dat. ........ 41 Tabulka 6.4: Seznam signifikantních parametrů dle BOH2_1 ................................................. 44 Tabulka 6.5: Počty pacientů v jednotlivých skupinách dle typu rozdělení dat. ....................... 45 Tabulka 6.6: Rozřazení pacientů do skupin dle změny hmotnosti .......................................... 49 Tabulka 6.7: Přehled chyb jednotlivých výpočetních modelů (A model – všechny vstupní parametry, B model – redukované vstupní parametry). ......................................................... 55 Tabulka 6.8: Přehled chyb jednotlivých výpočetních modelů (A2 model – všechny vstupní parametry, B2 model – redukované vstupní parametry. Skup X – přesnost klasifikace do konkrétní skupiny). .................................................................................................................. 60
xiv
1 Úvod 1.1 Seznámení s problémem „srovnávací studie v rekondičním centru“ Obezita patří k nejčastějším onemocněním v České republice, v Evropě i Severní Americe. Nemocných s vyšší než normální hmotností (tedy s nadváhou a obezitou je v naší populaci okolo 75 %). S obezitou je spojena řada komplikací, které obecně můžeme rozdělit např. na mechanické nebo metabolické. Z mechanických to jsou např. dorzalgie, dušnost, spánková apnoe, varixy, artrózy atd. Obecně o nich můžeme říci, že čím větší pokles hmotnosti u nemocného, tím větší efekt na zmírnění obtíží nemocného. Na druhou stranu jsou komplikace metabolické (např. inzulínová rezistence, diabetes mellitus, hypertenze, některá nádorová onemocnění apod.), u kterých platí, že i relativně menší úbytek hmotnosti (5‐10% BMI) výrazně vylepšuje prognózu a snižuje metabolická rizika. Cílem srovnávací studie v rekondičním centru bylo prokázat zřetelný efekt pohybové aktivity na některé parametry metabolického syndromu bez ohledu na redukci hmotnosti. Výsledky testů kvantifikovat a získat s určitou pravděpodobností schopnost predikovat účinek individuálně stanovené pohybové aktivity pacientů. V důsledku tak výrazně zvýšit complianci nemocných a adherenci k léčebnému procesu.
1.2 Naše cíle Naším hlavním úkolem je stanovit predikční rovnici hmotnosti po 3 měsících intenzivní léčby na základě bazálních hodnot získaných při vstupním léčebném testu. Abychom mohli vytvořit matematický model predikční rovnice, musíme s ohledem na velké množství měřených parametrů u každého pacienta provést shlukovou analýzu, klasifikovat pacienty do skupin a vybrat signifikantní parametry ovlivňující zařazení pacienta do konkrétní skupiny. Shrnutí cílů práce • • • •
Provést shlukovou analýzu, klasifikovat třídy pacientů s podobnými reakcemi. Zjistit signifikanci jednotlivých změn (HbA1C, C‐peptid, hmotnost, BMI, IRI …) Korelace změn k bazálním hodnotám – zjistit zda je možné predikovat změny na základě bazálních hodnot nebo změn v průběhu testu. Sestavit predikční rovnici pro výslednou hmotnost na základě vstupního testu. Dále pak analyzovat, které parametry se uplatňují a zjistit, zda lze předvídat na základě testů nějaké změny.
Obdrželi jsme data pacientů obezitologického centra III. Interní klinice l. LF UK Praha. U každého anonymizovaného pacienta známe výsledky vstupního a výsledky výstupního testu, který byl proveden po třech měsících intenzivní léčby. Naším cílem je za pomoci metod výpočetní inteligence provést analýzu a vyvození zmíněných závěrů nad těmito daty. Veškeré výsledky je nutné statisticky ověřit. 1
Část I Teorie
2
2 Statistika Matematická statistika je obecně přijímaná nauka o získávání informací z numerických dat. Obsahuje metody, které mají najít na základě experimentu nejpravděpodobnější řešení. Dvě základní oblasti matematické statistiky jsou teorie odhadu a testování hypotéz. V teorii odhadu chceme na základě experimentu co nejpřesněji určit hodnotu nějakého parametru. Přitom můžeme hledat jeho nejpravděpodobnější hodnotu (bodový odhad), nebo interval, ve kterém daný parametr leží s předem danou pravděpodobností (intervalový odhad). Při testování hypotéz jde o odpověď typu ano ‐ ne na předem položenou otázku. Otázka se může týkat buď hodnoty nějakého parametru (je šance mužů na zhubnutí vyšší než žen?), nebo rozdělení souboru (řídí se počet hypertonických pacientů Studentovo rozdělením?).
2.1 Nejčastěji používané statistiky V této kapitole se zaměříme na popis jednorozměrných statistických souborů. Budeme předpokládat, že je k dispozici soubor dat , … , . Pozor soubor dat se nerovná množině hodnot { , … , , protože soubor může obsahovat opakující se hodnoty. 2.1.1 Míry polohy Všeobecně nejznámější a nejpoužívanější mírou polohy je aritmetický průměr 1
Velkou nevýhodou aritmetického průměru je citlivost na hrubé chyby, přesto zůstává důležitým ukazatelem. Jednoduchou a neustále používanou vlastností aritmetického průměru je
0
Slovně vyjádřeno to znamená, že součet odchylek od aritmetického průměru je roven nule. Pokud jsou všechna čísla , … , kladná, pak se definuje geometrický průměr
…
a harmonický průměr
…
Někdy se též definuje kvadratický průměr vztahem
3
…
Jedna ze zajímavých vlastností těchto průměrů je jejich uspořádání dané následujícím vztahem
přičemž rovnost nastane, pokud budou všechna rovna stejné konečné hodnotě. Další mírou polohy je medián ,který je definován následovně. Pokud je počet n hodnot , … , lichý n=2m – 1, pak medián je roven prostřední hodnotě . Pokud n je sudé číslo n=2m, potom se medián volí jako
.
2.1.2 Míry rozptýlení Mezi nejčastější míry rozptýlení hodnot , … ,
patří především rozptyl
1
A jeho odmocnina se nazývá směrodatná odchylka √ . Důvodem, proč se v předchozím vztahu používá je následující funkce, která nabývá svého minima právě pro
1
2.1.3 Empirická distribuční funkce Empirickou distribuční funkci můžeme definovat následovně
1 ,
,
kde 1, 0,
je charakteristická funkce množiny A. Pokud jsou všechny hodnoty pak v každé z nich má
,…,
od sebe různé,
skok velikosti .
2.1.4 Metody zobrazení kvantitativních dat Velmi stručně popíšeme několik základních způsobů zobrazení kvantitativních měření jedné proměnné. Statistický soubor dat je v tomto případě n‐tice reálných čísel, v níž se prvky mohou opakovat. Základní numerické zobrazení je tabulka četností. Vytvoří se kvantitativním setříděním proměnné a pro každou hodnotu se zjistí její absolutní a případně relativní 4
četnost. Grafickými zobrazeními četnosti do grafu se nazývá histogram. Osa X odpovídá hodnotám proměnné a osa Y absolutním nebo relativním četnostem. Na obrázku 2.1 je zobrazen histogram tělesné výšky vzorku obyvatel (výběr z normálního rozdělení, viz kapitola 2.1.8.2) .
Obrázek 2.1: Kvantitativní zobrazení dat pomocí histogramu s proložením křivky hustoty normálního rozdělení.
2.1.5 Kovariance a korelace Nejprve se krátce zmíníme o kovarianci veličin. Předpokládejme, že všechny veličiny , … , mají konečný rozptyl. Kovariancí , veličin , rozumíme vztah ,
.
Snadnou úpravou se získá následující výraz , Místo
,
se často píše
,
.
nebo stručnějším zápisem
,
. Jednoduchou úpravou
lze zajistit, že , a je to rozptyl veličiny . Pokud uspořádáme prvky , která je někdy označována , do matice, dostaneme takzvanou variační matici taky jako var X. A nyní se již můžeme věnovat korelacím. Obecně slovo „korelace“ značí míru asociace dvou proměnných. Tím je myšleno, že dvě proměnné jsou korelované, jestliže hodnoty jedné proměnné mají tendenci se vyskytovat společně s určitými hodnotami druhé proměnné. Tato tendence může sahat od neexistence takového vztahu až po naprostou závislost. Nejdůležitější mírou síly vztahu mezi dvěma náhodnými veličinami je korelační koeficient. Nechť X a Y jsou náhodné proměnné s konečnými druhými momenty. Označíme 5
, , koeficient jako
,
. Je‐li
0
0, pak definujeme korelační
. , aby se naznačilo, kterých veličin se tento koeficient týká. Pokud Místo se někdy píše jsou veličiny X a Y nezávislé, potom je korelační koeficient 0. A podobně jednoduchý vztah platí pro totožnou veličinu (2.1)
1.
Podobně jako jsme zavedli variační matice, lze zavést také korelační matice. Mějme náhodný vektor ,…, , jehož jednotlivé složky mají konečné druhé momenty a kladné rozptyly. Korelační maticí vektoru X je potom matice typu n x n, kde
. Z rovnice 2.1 plyne, že matice P má na diagonále jedničky. Další
zřejmou vlastností je symetrie matice P. Nyní se zmíníme o vytváření korelační matice ze dvou vektorů nestejných délek. Máme náhodné vektory ,…, a ,…, , jejichž složky mají druhé momenty konečné a rozptyly kladné. Potom korelační maticí těchto dvou vektorů je , a je typu m x n. 2.1.6 Náhodné výběry Prostý náhodný výběr je posloupnost nezávislých stejně rozdělených veličin , … , . Číslo n se nazývá rozsah výběru. Důležité veličiny popisující prostý náhodný výběr jsou tyto 1
1
,…,
1
(2.2)
Veličina se nazývá výběrový průměr a veličina se definuje pouze pro n > 2. Pokud , … , náhodný výběr z rozdělení, které má střední hodnotu a konečný rozptyl . Potom platí následující důležité tvrzení ,
6
(2.3) (2.4)
Vzhledem k vlastnosti ve vztahu 2.3 říkáme, že je nestranný odhad parametru . Podobně z vlastnosti 2.4 je nestranný odhad parametru . 2.1.6.1 Náhodný výběr z normálního rozdělení V následujícím odstavci uvedeme tvrzení, jenž se poměrně často využívá v oblasti testování statistických hypotéz. Souvisí s normálním rozdělením, které bude vysvětleno v odstavci 2.1.8.1. Díky specifikaci rozdělení, ze kterého výběr pochází, lze některá tvrzení zpřesnit a odvodit další. ,…,
Máme‐li
výběr z
•
~
•
Je‐li
2, pak
•
Je‐li
2, pak
,
,
, pak platí následující tvrzení
. ~
.
a jsou nezávislé.
2.1.7 Centrální limitní věta Jedno z poměrně starých, ale důležitých tvrzení matematiky se nazývá centrální limitní věta. Předpoklady věty jsou následující. Nechť , … , je posloupnost náhodných veličin s konečnými druhými momenty. Označíme , , 1,2, … , . Za hodně obecných podmínek pak platí, že veličiny 1
√
pro
(2.5)
∞ mají asymptoticky normální rozdělení.
První takovéto tvrzení bylo zformulováno již v roce 1812 francouzským matematikem Laplacem. Pokud předpoklady předešlého tvrzení doplníme o předpoklad stejného rozdělení veličin , … , a rozptylu , potom můžeme následně zesílit naše tvrzení pro . veličiny , které mají při ∞ asymptoticky rozdělení 0, 2.1.8 Základní pravděpodobností rozdělení Nyní se seznámíme s několika nejdůležitějšími pravděpodobnostními rozděleními. Nejvíce pozornosti budeme věnovat již zmíněnému normálnímu rozdělení. 2.1.8.1 Normální rozdělení Normální rozdělení – nazývá se též Gaussovo a je asi nejpoužívanějším rozdělením pro modelování náhodného chování proměnných. Několik důvodů významnosti tohoto rozdělení: 7
(a) 2D normální rozdělení
(b) 3D normální rozdělení
Obrázek 2.2: Hustota pravděpodobnosti jednorozměrného normálního rozdělení a dvourozměrného normálního rozdělení.
• • • •
mnoho sledovaných veličin lze aproximativně modelovat podle tohoto rozdělení některé proměnné lze jednoduchou transformací převést na proměnnou s normálním rozdělením mnoho statistických metod (testů) toto rozdělení u veličin minimálně předpokládá nebo jsou přímo na něm založené platí centrální limitní věta uvedená v odstavci 2.1.7
Vzorec pro hustotu pravděpodobnosti
normálního rozdělení je dán vztahem
1
,
√2
(2.6)
kde a jsou parametry, které ovlivňují tvar této křivky. Parametr určuje maximum křivky a parametr určuje, jak jsou po obou stranách od hodnoty vzdáleny inflexní body (roztažení křivky do šířky). Rozdělení jednorozměrné a dvourozměrné si můžete prohlédnout na obrázku 2.2, kde je i zobrazen význam parametru a . 2.1.8.2 Studentovo trozdělení Studentovo rozdělení je velmi podobné rozdělení normálnímu. Změna oproti normálnímu rozdělení je v tom, že neznáme směrodatnou odchylku , ale místo ní dosazujeme výběrovou směrodatnou odchylku . Na počátku 20. století bylo dokázáno, že výběrové rozdělení aritmetického průměru se po jeho standardizaci střední hodnotou a výběrovou střední chybou může reprezentovat t‐rozdělením, jehož tvar závisí na stupních volnosti. √
~
1
√ 8
(2.7)
Tvrzení o tvaru rozdělení t‐statistiky platí, pokud rozdělení náhodné proměnné je normální. 2.1.8.3 rozdělení rozdělení se používá především při zkoumání variability rozptylu, ale i v dalších situacích. Má pouze jeden parametr, který se nazývá stupeň volnosti. Statistika 1 / má pravděpodobnostní rozdělení s n‐1 stupni volnosti, pokud proměnná, pro kterou se statistika počítá, má normální rozdělení. Parametr je rozptyl náhodné proměnné, je výběrový rozptyl a n je počet pozorování.
2.2 Testování statistických hypotéz Statistické usuzování znamená provedení zobecnění z náhodného výběru na celou populaci (respektive na všechny prvky). Toto zobecnění se provádí s určitým stupněm jistoty (spolehlivosti). Statistické usuzování je založeno na následujícím principu. Má‐li nějaký jev v určitém pokusu jen velmi malou pravděpodobnost, potom se chováme tak, jako kdyby tento jev v pokusu vůbec nemohl nastat. Velikost této pravděpodobnosti se volí jako hladina významnosti . 2.2.1 Obecný postup při testování hypotéz Testování hypotéz lze obecně rozdělit do následujících kroků: 1. 2. 3. 4.
Formulace otázky ve formě nulové a alternativní hypotézy. Zvolení úrovně chyby rozhodování (hladiny významnosti). Volba testu a vypočtení testovací statistiky. Závěr testu, doporučení.
Krok 1: Formulace otázky Prvním krokem je formulace nulové hypotézy
a alternativní hypotézy
.
Nulová hypotéza je hypotéza, která deklaruje „žádný rozdíl“ mezi daty (neboli jakýkoli nalezený rozdíl lze vysvětlit přirozenou variabilitou dat). Alternativní hypotéza pokrývá situaci, kdy neplatí. Dá se to vyjádřit jako „existence diference“ mezi skupinami. Dokud nedokážeme opak, předpokládáme platnost nulové hypotézy. Nicméně potvrdit ji nemůžeme. Krok 2: Volba hladiny významnosti Hladina významnosti je pravděpodobnost, že se zamítne hypotéza, ačkoliv ve skutečnosti platí. Odpovídá míře ochoty smířit se s výskytem chyby. Volí se velmi malá, např. 0,05 či 0,01.
9
(a) Jednostranný test
(b) oboustranný test
Obrázek 2.3: Princip testování jednostranného a oboustranného testu, ukázaný na normálním rozdělení. Hladina významnosti zvolena , .
Krok 3: Volba testu a výpočet statistiky Z dat se vypočítá testovací hypotéza, která slouží pro statistické rozhodování. Existuje mnoho testovacích statistik, ale jejich výpočet závisí na povaze dat a testované hypotéze. Krok 4: Závěr testu, doporučení Formulace závěru z testování. Provádí se v zásadě dvěma způsoby. Můžeme srovnat testovací statistiku s kritickou mezí nebo ji převedeme do pravděpodobností škály na hodnotu významnosti p. Porovnání s kritickou mezí je velmi názorné, podrobně ho probereme v následujících odstavcích 2.2.2 a 2.2.3. Provedení spočívá v přímém porovnání testovací statistiky s kritickou mezí , kde je hladina významnosti zvolená v kroku 2. Kritická mez určuje kritickou oblast (oblast zamítnutí). Pokud se testovaná statistika ocitne uvnitř této oblasti, znamená to, že existuje důvod pro zamítnutí nulové hypotézy. Druhá možnost je spočítat hodnotu významnosti p. Hodnota p kvantifikuje pravděpodobnost realizace hodnoty testovací statistiky za platnosti nulové hypotézy. Pokud je „malá“, je zde důvod k zamítnutí nulové hypotézy. Princip testování si ukážeme na testech střední hodnoty veličin s normálním rozdělením. 2.2.2 Princip jednostranného testování Jednostranné testování hypotéz může mít jednu ze dvou forem: levostranná hypotéza nebo pravostranná hypotéza. Princip si ukážeme na příkladu. Můžeme rozhodovat o střední hodnotě veličiny mající normální rozdělení. Pravostranná hypotéza na test střední hodnoty vypadá takto :
Při levostranné alternativě vypadají hypotézy takto 10
:
(2.8)
:
:
(2.9)
0,05 a vypočteme testovanou statistiku v tomto
Zvolíme hladinu významnosti konkrétním případě jako
. Pokud padne hodnota do oblasti grafu na obrázku 2.3a
označeného šipkou, můžeme zamítnout nulovou hypotézu. 2.2.3 Princip oboustranného testování V případě oboustranného testování je postup téměř totožný. Pouze se vychází z jiné hypotézy. Zde nám záleží na odchylce od nulové hypotézy na obě strany. :
:
(2.10)
Opět se vypočte testovaná statistika, zde z. Hodnota se porovná s grafem na obrázku 2.3a nebo tabulkovou hodnotou. Pokud testovací statistika padne do jedné z oblastí zamítnutí, můžeme zamítnout nulovou hypotézu. 2.2.4 Chyby ve statistickém usuzování Ve statistice jsou v zásadě dvě možná mylná rozhodnutí. 1. Chyba I. druhu – nulová hypotéza platí, ale zamítne se. 2. Chyba II. Druhu – nulová hypotéza neplatí, ale nezamítne se. Pravděpodobnost chyby I. druhu je podmíněná pravděpodobnost, že zamítneme předpokladu, že platí a označujeme ji . . .
| |
í
za
í
Můžeme tedy mluvit i o jevech opačných. Podmíněná pravděpodobnost, že neuděláme chybu I. druhu se nazývá spolehlivost testu (odpovídá hodnotě 1 ), nebo že neuděláme chybu II. druhu, ta se nazývá síla testu (odpovídá hodnotě 1 ). Celkově usilujeme o maximalizaci spolehlivosti a sílu testu.
Rozhodnutí na základě testu
Ve skutečnosti platí
H0
H1
H0
v pořádku
Chyba II. druhu (beta)
H1
Chyba I. druhu (alfa)
v pořádku
Tabulka 2.1: Chyby při testování hypotéz
11
2.3 Dvouvýběrové testy 2.3.1 Dvouvýběrový T test Dvouvýběrový test patří k nejzákladnějším statistickým testům. Používá se na porovnání středních hodnot dvou výběrů. O těchto výběrech je potřeba učinit několik předpokladů. Nechť , … , výběr z , , dále , … , je výběr z , a zároveň 2, 2, 0. Předpokládejme, že oba výběry jsou na sobě nezávislé. Označme 1
1
,
1
1
,
1
,
.
1
Náhodná veličina 2 1 má rozdělení
1
(2.11)
. Tento test se týká testování následující hypotézy :
Kde je dané číslo (nejčastěji podle vzorce 2.11. Je‐li
:
0 . Postup testu je snadný. Nejprve se vypočte statistika T | |
(2.12)
potom zamítáme hypotézu na hladině významnosti . Podobně se provádí jednostranné testy. Mezi předpoklady dvouvýběrového t testu patří normalita obou výběrů a stejný rozptyl ve výběrech. Porušení mívá jen malý vliv na výsledek testu. V případě výrazných nenormalit se použije některý z neparametrických testů. Shodu rozptylů můžeme ověřit pomocí F testu (viz. 2.3.2). 2.3.2 Test shodnosti dvou rozptylů Test shody dvou rozptylů je jedním z častých testů, protože shoda rozptylů je vyžadována u nemalého počtu ostatních testů. Předpokládejme, že , … , a , … , jsou dva nezávislé výběry. První z nich pochází z rozdělení , a druhý z , . Dále předpokládejme, ⁄ má 0, 0. Platí‐li , pak náhodná veličina že 2, 2, rozdělení . Kritická hodnota , rozdělení , je takové číslo, které náhodná , veličina s rozdělením , překročí s pravděpodobností . Provádí se test následující hypotézy 12
:
:
(2.13)
Při praktickém provádění testu se obvykle pořadí výběru upraví tak, aby platilo Potom se snadno zamítne pokud
.
,
.
2
(2.14)
2.4 ANOVA (ANalysis Of Variance) ANOVA ‐ Analýza rozptylu je skupina široce použitelných statistických modelů a metod. Používá se na porovnávání parametrů více výběrů. Neboli v oblasti, kde je t test již téměř zcela nepoužitelný. Základní statistikou v analýze rozptylu je F‐testovací statistika rozdílných skupinových průměrů, s jejíž pomocí se testuje hypotéza, zda průměry ve skupinách se od sebe liší více než na základě působení náhodných změn. Obecně má F‐statistika v analýze rozptylu následující tvar áž
ý
ů ě é
ě
2.4.1 Odvození analýzy rozptylu jednoduchého třídění Situace je podobná jako u dvouvýběrového t testu, ale výběrů může být více. Předpokládejme, že , …,
ý ě
,
,
…,
ý ě
,
Předpokládáme, že výběry jsou na sobě nezávislé. Je třeba testovat hypotézu : proti alternativě : š ř í ,…, . V případě zamítnutí je nutné najít všechny dvojice , , které toto zamítnutí způsobily. Vrátíme se na chvíli k t testu. Zdánlivě by bylo možné porovnat všechny možné dvojice 1 . Pokud by se prováděly na
výběrů pomocí t testu. Těchto testů by však bylo
hladině , byla by výsledná hladina testu mnohem vyšší než . Hladina testu by se dala snížit na
, tímto by se zaručilo, že hladina výsledného testu nepřekročí . Bohužel test by měl
malou sílu a výsledná hladina by byla výrazně nižší než tolerovaná hodnota . Proto volíme jiný postup. Nejprve seřadíme všechny hodnoty do jediného vektoru Y tak, že nejprve napíšeme členy prvního výběru, druhého výběru až nakonec posledního. Označme Vzhledem k předpokladům lze data modelovat pomocí vztahu 13
(2.15)
kde
(2.16)
Vektor ,…, má n složek a dá se charakterizovat jako vektor chyb a platí pro něj ~ 0, . Vztah 0 nám říká, že měření vektoru Y nejsou zatížena systematickými tvrdí, že měření složek vektoru Y jsou prováděna se stejnou chybami a vztah přesností a chyby měření jednotlivých složek vektoru jsou nekorelované. Samostatně se ale pozorovat nedá. Dále označme ,
.
..
.
.
.
,
.
1, … , ..
..
Z výše uvedených vztahů lze snadno odvodit následující vztahy (Diag značí diagonální matici s prvky na diagonále.) ,…,
,
., … ,
.
Nyní odvodíme vektor b, který je odhadem vektoru z rovnice 2.15 metodou nejmenších čtverců a dá se vypočítat ze soustavy rovnic odvozené z rovnice 2.15
,…,
,…,
., … ,
.
(2.17)
Reziduální součet čtverců odhadnutý metodou nejmenších čtverců je následující 14
.
Pokud platí
:
.
.
, potom model 2.15 se redukuje na podmodel
(2.18)
1, … ,1 a je typu 1 1 a má hodnotu . Tentokrát kde odhad g parametru metodou nejmenších čtverců je
,
.. .
.. , takže
(2.19)
Za platnosti tohoto modelu je reziduální součet čtverců
..
.. ..
Rozdíl čtverců pro oba modely je ..
.
.
(2.20)
Bez důkazu uvádím následující tvrzení o rozdělení podílů reziduálních čtverců, důkaz viz. [3]. ~
1 Zdroj proměnlivosti
Součet čtverců SS
,
Stupňů volnosti df
Skupiny Reziduální
1
Celkový
1
(2.21)
Testovaná statistika
Podíl
‐
‐ ‐
Tabulka 2.2: Analýza rozptylu jednoduchého třídění
Při praktickém výpočtu se nejprve počítá celkový součet čtverců ..
15
.
(2.22)
Následně se vypočítá řádkový součet čtverců .
..
(2.23)
Reziduální součet čtverců se zpravidla značí a počítá se jako
(2.22)
Pro praktické výpočty z dat se celá metody zapisuje do přehledné tabulky, viz. tabulka 2.2. V případě, že zamítneme hypotézu . ,
2.5 PCA – Principle Component Analysis Metoda analýzy hlavní komponenty je statistická metoda používaná k zobrazování vícedimenzionálních dat do méně dimenzionálního prostoru. Obrovskou výhodou této metody je zachování linearity, neboli je lineární transformací a zachová vzdálenosti. Nejdůležitější pojem této transformace je vlastní vektor. 2.5.1 Vlastní vektor Nechť V je vektorový prostor a : je diagonizovatelný lineární operátor a ,…, je taková báze prostoru V, že matice je diagonální se skaláry na , … , na diagonále. Potom pro bázové vektory vi platí Říkáme, že vektor 0 je vlastní nebo charakteristický vektor lineárního operátoru , pokud existuje skalár , pro který platí . 2.5.2 Výpočet PCA Pro výpočet PCA je nejprve potřeba stanovit variační matici V. Z této matice jsou pak vypočítány vlastní vektory a vlastní čísla. Tento výpočet lze jednoduše provést např. pomocí programu MATLAB. Pro dvourozměrná data reprezentovaná vektory x a y získáme matici vlastních vektorů V a matici vlastních čísel E pomocí příkazu: , , . Vlastní vektory budou jednotkové délky, což je podmínkou pro tuto transformaci. Jejich počet odpovídá původnímu rozměru prostoru. Následně jsou vlastní vektory seřazeny podle velikosti jejich vlastních hodnot a to od největší k nejmenší vlastní hodnotě. Vektor s největší vlastní hodnotou se nazývá hlavní komponenta. Z takto uspořádaných vlastních vektorů vezmeme prvních n vektorů do tzv. feature vektoru FV, kde n je počet dimenzí, na kterých chceme data redukovat. Výsledná data získáme jako , kde VD jsou výsledná n‐rozměrná data, FV je feature vektor a D=(x1,…,xk) jsou původní z‐ rozměrná data s počtem vektorů k. 16
3 Metody výpočetní inteligence Neuronové sítě mají obrovskou výhodu v tom, že jsou schopny učit se na příkladech a po naučení jsou schopny vystihnout skryté i silně nelineární závislosti a to i za přítomnosti šumu v trénovací množině. Nevýhoda spočívá v tom, že se mohou naučit závislost platnou pouze v určitých datech. Chybu předpovědi přitom lze zpravidla odhadnout velmi obtížně.
3.1 Úvod do neuronových sítí Umělá neuronová síť představuje distributivní, adaptivní, obecně nelineární stroj se schopností učení, který je sestaven z mnoha různých prvků (jednotek) pro zpracování informace. Každý prvek je spojen s jinými prvky nebo také sám se sebou zpětnovazebními spojeními. Vlastní propojitelnost sítě definuje topologie umělých neuronových sítí. Hodnoty signálů přenášených mezi jednotlivými prvky se mění v závislosti na nastavitelných parametrech, které se nazývají váhy ‐ . Prvek sčítá všechny příchozí hodnoty vážených spojení a produkuje výslednou hodnotu, která je nelineární (statickou) funkcí jeho součtu. Výstup prvku může být výstupem systému nebo může být zaslán na stejný nebo jiný prvek.
Obrázek 3.1: Matematický model neuronu.
Topologie neuronových sítí jsou dány počtem vrstev, počtem neuronů v jednotlivých vrstvách a tvary aktivačních funkcí použitých v dané neuronové síti. Návrh struktury neuronové sítě bezprostředně předchází provedení systematické procedury (trénovací algoritmus), která modifikuje nastavení jednotlivých váhových hodnot neuronové sítě tak, aby bylo dosaženo přesné klasifikace informací neuronové sítě. Přesnost algoritmu trénování je dán kritériem chyby sítě.
17
3.1.1 Učící a vybavovací fáze sítě Učící fáze (trénovací) •
•
S učitelem ‐ Při učení s učitelem se umělá neuronová síť učí tak, že srovnává svůj výstup s výstupem svého učitele nastavováním vah tak, aby se snížil rozdíl mezi skutečným a požadovaným výstupem. Protože již při malém počtu vstupů je prostor definovaný koeficienty v matici obrovský, je nutno použít nějaký učící algoritmus, efektivně hledající správné hodnoty koeficientů. Příkladem je hledání řešení ve směru největšího gradientu. Bez učitele – síť nemá žádný srovnávací signál k určení správnosti. Algoritmus je navržen tak, že hledá ve vstupních datech vzorky s určitými vlastnostmi tedy podle závislosti, korelace.
Vybavovací fáze (testovací) V aktivní vybavovací fázi se již neupravují koeficienty. Na vstup sítě se přivedou data a pak se (v matematické umělé reprezentaci) počítá odezva sítě na výstupu. Pokud má síť zpětné vazby, musí se počítat tak dlouho, dokud se signál na výstupu neustálí (zkonverguje). 3.1.2 Přehled typu sítí Pro řešení každé úlohy musí být vybrána vhodná neuronová síť. Zvolit správný typ sítě znamená rozhodnout o struktuře sítě (tj. počet vstupů, výstupů, vrstev, skrytých neuronů, typ aktivačních funkcí, atd.) a zvolit vhodný trénovací algoritmus. Zkráceně nyní popíši základní typy neuronových sítí. Sítě, které v práci dále intenzivně používáme, budou detailně popsány v kapitolách 3.2 – 3.4. Vícevrstvá perceptronová síť – velmi rozšířená neuronová síť s učitelem. K nevýhodám sítě patří obtížné řešení problému lokálních minim, náchylnost k přeučení a poměrně dlouhá doba učení. Perceptronové sítě jsou složeny z neuronů, které realizují afinní transformaci vstupních hodnot, na níž je nejčastěji aplikována nelineární schodovitá přechodová funkce. Neurony jsou v síti uspořádány do vrstev, které jsou navzájem propojeny synapsemi. Typicky uvažujeme sítě s jednou či dvěma vrstvami perceptronů (tzv. skrytými vrstvami). Tato síť se typicky učí algoritmem Backpropagation.
RBF(Radial Basis Function) síť – síť radiálních jednotek s učitelem. Představuje alternativní architekturu neuronové sítě, která využívá jiný typ neuronů, tzv. lokální jednotky. Ty mají odlišnou přechodovou funkci, která nejprve spočte vzdálenost vstupu od středu určeného parametry jednotky a následně aplikuje nelineární funkci (nejčastěji je to Gaussova funkce). RBF sítě lze učit variantou gradientního algoritmu nebo také použitím genetických algoritmů. Kohonenova síť (SOM)‐ neuronová síť bez učitele, provádí proto pouze analýzu vstupních dat, přesněji shlukovou analýzu. Viz 3.2.
18
Hoplfieldova síť – neuronová síť s autoasociativní pamětí. Pracuje s bipolárními hodnotami vstupů a výstupů. Spojitá varianta Hopfieldovy sítě se používá pro řešení optimalizačních problémů. GMDH síť ‐ síť patří trochu k netypickým neuronovým sítím, protože se tak chová pouze při tzv. učení sítě, kdy dochází k automatické adaptaci koeficientů a struktury na požadovaný výsledek, který má později predikovat. Po naučení se již síť GMDH chová jako filtr s pevně danou strukturou. Právě nastavená struktura a koeficienty jsou výsledkem předchozího učení. To probíhá tzv. metodou učení s učitelem, kdy je nutné síti předkládat jak vstupní „syrová“ data, tak i ideální výstup. Proto je nutné pro fázi učení, tj. automatické tvoření struktury pro odstranění daného typu rušení, mít k dispozici vektor vstupních dat a referenční požadovaný výsledek. V této práci využíváme sítě typu GAME, která je modifikací sítě GMDH. 3.1.3 Klasifikace versus shlukování V experimentální části budeme velmi často používat pojem klasifikování dat a shlukování nebo shluková analýza. Proto zde krátce vysvětlím rozdíly. • • •
Cílem klasifikace je zařadit buď některé z objektů, nebo všechny objekty do skupin. Shlukování: nemáme žádné informace o existenci skupin a chceme klasifikovat všechny sledované objekty (chceme vytvořit shluky). Shluková analýza je postup formulovaný jako procedura, pomocí níž objektivně seskupujeme jedince do skupin na základě jejich podobnosti a odlišnosti.
3.2 SOM – Self Organizing Map Profesorem Kohonenem objevená samoorganizující mapa je velmi populární a používaná neuronová síť. Mezi její hlavní přednosti patří její snadná vizualizace a široké uplatnění. V klasické podobě provádí mapování n‐dimenzionáních dat do dvoudimenzionálního prostoru. Ve stručnosti představím principy neuronové sítě SOM. 3.2.1 Struktura Základní jednotkou je neuron. Každý neuron je reprezentován vektorem vah o dimenzi rovné dimenzi vstupního prostoru. Každý neuron si určuje vzdálenost mezi svým váhovým a vstupním vektorem podle určené metriky (typicky euklidovské). Tuto hodnotu nazýváme jeho excitací. Neurony jsou připojeny k sousedním neuronům pomocí mřížky definující okolí neuronu. Může být různého tvaru např. hexagonálního nebo pravoúhlého. Práci se sítí lze rozdělit na počáteční inicializaci, učící a vybavovací fázi.
19
Obrázek 3.2: Dva typy mřížek – hexagonální a pravoúhlá
3.2.2 Inicializace Počáteční inicializace neuronů, která již může mít velký vliv na výsledek naučení sítě, lze provést různými způsoby. Nejčastěji používanými způsoby jsou: • Náhodná inicializace – váhové vektory jsou inicializovány malými náhodnými hodnotami. • Vzorková inicializace – váhové vektory jsou inicializovány náhodnými vektory ze vstupních dat. 3.2.3 Učící fáze Učení sítě SOM je iterativní. Dle vstupních dat a učícího pravidla se provádí přizpůsobování váhových vektorů neuronů. Základními učícími algoritmy jsou sekvenční a dávkový algoritmus. Best Matching Unit (BMU) budeme nazývat neuron, jehož váhový vektor se nejvíce blíží vstupnímu vektoru c. Podobnost vektorů c a mi je typicky definována pomocí euklidovské vzdálenosti. min Váhový vektor mb a jeho topologičtí sousedé se pak dále upravují (posouvají se blíže ke vstupnímu vektoru c). 3.2.3.1 Učící algoritmy 3.2.3.1.1 Sekvenční učící algoritmus V každém kroku učení sítě je ze vstupních dat náhodně vybrán jeden vzorec c a je nalezena jeho BMU. Úprava váhového vektoru jednotky i je prováděna dle pravidla: 1
Obrázek 3.3: Proces učení – adaptace vah
3.2.3.1.2 Dávkový učící algoritmus Dalším iterativním učícím algoritmem je dávkový učící algoritmus. Oproti sekvenčnímu učícímu algoritmu předkládá dávkový algoritmus celý vstupní prostor najednou. Vektory prototypů společně s hledáním BMU definuje rozdělení vstupního prostoru do tzv. Voronoiových oblastí. 20
: , Váhové vektory získáme jako vážené průměry ze všech vstupních vzorků: ∑ ∑ 1 ∑ ∑ kde t značí čas, Ni je počet vstupních vzorků ve Voronoiově množině Vi,
∑
je
jejich střed a funkce hbi definuje okolí b (BMU) v čase t. V mém případě hbi představuje gaussovu funkci, která je v praxi běžně používaná. Funkce je definována jako:
2 kde
je poloměr okolí, které je v průběhu učení zmenšován.
Obrázek 3.4: Princip přizpůsobování BMU a jejich topologických sousedů vstupnímu vektoru.
3.2.4 Stanovení kvality mapy 3.2.4.1 Zkroucení (distorsion) V případě diskrétní datové množiny a pevného okolí, potom můžeme definovat energetickou funkci Ed, která popisuje celkové zkroucení mapy: Počítá se jako suma pro všechny vstupní vektory, kdy pro každý z nich je spočítána suma vzdáleností mezi neurony a vektorem přenásobená funkcí okolí. 3.2.4.2 Topografická chyba Topografická chyba se spočítá jako: 1
21
kde u(ci)=1 jestliže první a druhá BMU vektoru ci nejsou sousední jednotky, jinak nula. Pokud je tato veličina vyjádřena v procentech 100, dá se jednoduše interpretovat jako procento případů vektorů ci, které nejsou topograficky vyjádřeny mapou. 3.2.4.3 Rozlišení Jako veličina pro měření rozlišení mapy se běžně používá průměrná kvantizační chyba , počítaná přes celý vstupní prostor. 1
3.2.5 Vizualizace SOM 3.2.5.1 Zobrazení struktury a tvaru Projekce je vytvářena většinou z vícedimenzionálního vstupního prostoru namapovaného na mapu nižší dimenzionality, běžně 2‐D nebo 3‐D. Projekční metody ve vstupním prostoru • •
PCA (Principal Component Analysis) – jednoduchá lineární metoda popsaná v kapitole 3.2. Sammonova projekce – nelineární iterativní technika, která aproximuje vzdálenostmi ve vstupním prostoru (vícedimenzionální změna měřítka) a zvýrazňuje lokální vzdálenosti vstupního prostoru.
Matice vzdáleností Matice vzdáleností udržuje vzdálenosti mezi sousedními jednotkami mapy. Existuje několik způsobů reprezentace takovéto mapy: • Jednoduché matice vzdáleností – matice obsahující jednu hodnotu pro každou jednotku mapy, např. medián vzdáleností k jeho přímým sousedům.
Obrázek 3.5: Matice vzdáleností ve 3D. Vizualizováno pomocí SOM toolboxu v programu Matlab
22
• •
•
U‐matice (Unified Distance Matrix) ‐ zde jsou odděleně uloženy vzdálenosti pro každou jednotku mapy ke všem jejím sousedům. P‐matice (Pareto Density Estomation Matrix) – je definována analogicky k U‐matici matici, ale místo vzdáleností k okolním jednotkám je zde uložena empirická hustota pravděpodobnosti referenčního bodu ve vstupním prostoru na pozici jednotky. U*‐ matice ‐ je to kombinace U‐matice a P‐matice. Vzdálenost mezi sousedy je určena stejně jako v U‐matici přizpůsobená pomocí hustoty pravděpodobnosti dat okolo dané jednotky.
Obrázek 3.6: Ukázka shlukové analýzy v SOM – U‐matice
Data na mapě • Hit histogram dat – nejjednodušší a tradiční cesta jak ukázat výsledek ‐ pozice BMU na mapě. Tato technika je velmi jednoduchá, ale skýtá také úskalí. Při nalezení BMU není poskytována žádná informace o přesnosti jejího určení. Struktury na mapě mohou vést ke špatné interpretaci. • Informace o pozici – jiný přístup je umísťovat vzorky do obrázku společně se zobrazováním statistik přesnosti přiřazení. Tato technika vede k dobré vizualizaci, která zobrazuje pravé vzdálenosti mezi vzorkem, jeho BMU a sousedními jednotkami. 23
3.3 GAME Group of Adaptive Models Evolution (GAME) je program pro simulaci a studium chování umělých neuronových sítí. Je zde využita síť typu GAME, která vychází z původních GMDH sítí (viz. obrázek 3.7) [2]. Síť může být tvořena různými typy jednotek (např. LinearNeuron, CombNeuron, PolySimpleNeuron, SigNeuron, GausssNeuron a dalšími). Tyto jednotky jsou organizovány ve vrstvách. Evolučními procesy dochází k selekci “kvalitních” jednotek, které nadále v jednotlivých vrstvách přežívají. Hlavním přínosem sítě GAME je její schopnost generovat skupiny samoadaptujících modelů podle charakteru a komplexnosti zadaných dat. Induktivní model neuronové sítě roste do takové velikosti, aby byl schopen zadanou úlohu vyřešit s požadovanou přesností. Model se skládá z jednotek (neuronů), které nejlépe modelují vnitřní vztahy v datech. Jak je vidět na obrázku, síť typu GAME má více stupňů volnosti než síť typu GMDH (jednotky s více vstupy, propojen mezi vrstvami v síti). S rostoucí dimenzí zadaných dat je nemožné bez dalších heuristik vyhledat v obrovském stavovém prostoru různých modelů správnou topologii. Proto v sobě GAME zahrnuje mimo jiné genetický algoritmus pro vytváření optimální topologie modelu.
Obrázek 3.7: Rozdíl mezi sítí MIA GMDH a GAME
Síť je dynamicky generována procesem učení – jedná se tedy o neuronovou síť s učitelem. Pro tvorbu neuronové sítě v simulátoru je potřeba zadat vstupní data. Ta obsahují informace o reálném systému, který bude v počítači simulován neuronovou sítí. Data jsou organizována 24
v řádcích. V každém řádku je vektor (představující vstupní data ) a hodnota d (předpokládaný výsledek pro vstupní data ). Pokud zjistíme dopověď sítě y na všechny vstupní data , můžeme spočítat chybu sítě – E jako 1
, kde n je celkový počet vstupních vektorů . 3.3.1 Vizualizace v GAME Nástroj GAME nabízí širokou škálu vizualizačních technik. V této práce krátce popíšeme pouze takové techniky, které jsme používali k vyhodnocování dat. 3.3.1.1 Klasifikace na skupiny ve 2D GAME obsahuje vizualizační techniky pro klasifikaci modelů. Data jsou zobrazována ve 2D jako křížky nebo čtverce z patřičnou barvou indikující náležitost ke konkrétní skupině. Velikost čtverců je nepřímo úměrná vzdálenosti vypočteného vektoru od průmětné roviny vstupního prostoru. 3.3.1.2 Klasifikace na skupiny a regresní grafy ve 3D GAME umožňuje rozšířit 2D vizualizační techniku popsanou výše o třetí dimenzi. Jeden extra stupeň volnosti může být použit pro studium vztahů výstupní proměnné se dvěma (regrese) nebo třemi (klasifikace) příznaky na vstupu (parametry). 3.3.1.3 Scatterplot matice Scatterplot matice je populární technika pro vizualizaci dat s velkým množstvím vstupů. Data jsou zobrazena do několika 2D grafů (kompletní párová kombinace všech vstupních parametrů). Opět, křížky reprezentují vstupní vektory, jejich barva pak náležitost ke konkrétní skupině. Tmavě obarvené oblasti značí, kde se výstup modelu v GAME blíží „1“ – všechny vektory v této oblasti jsou přiřazeny k modelované skupině.
Obrázek 3.8: Diabetická data – křížky reprezentují zdravé/léčené. Tmavé pozadí označuje členy skupiny „diabetici“. Modelováno GAME sítí.
25
Obrázek 3.9: 3D vizualizace v GAME.
Obrázek 3.10: Scatterplot matice zobrazující GAME síť modelující členství k vybrané skupině. Analýzou grafu můžeme rozhodnout, který scatterplot nejlépe separuje třídy (osy alm2 a aac) a vybrat pro tento graf větší detail.
3.4 Selekce významných příznaků (Feature selection) a jejich hodnocení (Feature ranking) Pokud použijeme příliš mnoho vstupů (příznaků) pro klasifikaci dat, může nastat jev známý jako „prokletí dimenzionality“. Naopak pokud je vstupů příliš málo, mohou chybět zásadní informace pro rozhodování. Úkol správného výběru dostatečného množství vstupů je úkol pro algoritmy výběru významných parametrů (feature selection algorithm). V praktických aplikacích je velmi složité získat kompletní data se všemi relevantními vstupy. Proto jsou modelované systémy otevřené a všechny důležité vstupy, které z jakéhokoliv důvodu nebylo možno připojit ke vstupním datům jsou vypočteny a označeny jako chyba. Ačkoliv by se mohlo zdát, že s více vstupy lze modelovat stejný model s větší přesností, v praxi již bylo mnohokrát ověřeno, že tomu tak není. Přesnost modelu spíše závisí na možnostech sběru vstupních dat v reálném světě. Kvalitní modely jsou dobře vyváženy z hlediska komplexnosti modelu a dostupnosti informací. 3.4.1 Analýza významných parametrů v GAME GAME užívá k vytváření neuronové sítě genetické algoritmy. Můžeme říci, že dokud genetické algoritmy vytvářejí, vylepšují neuronovou síť, dochází také k vylepšování hodnocení příznaků. Hodnocení příznaků (feature ranking) [18] pracuje takto – v inicializační populaci v první vrstvě sítě jsou jednotky náhodně vygenerovány. Propojení na určité vstupní proměnné je reprezentováno vztahem s gene locus (bitová pozice v chromozomu). Na počátku jsou jedinci do gene locus distribuováni jednotně. Během několika epoch genetického algoritmu se počet jedinců v gene locus (počet jedniček v populaci chromozomů
26
odpovídá připojení ke konkrétnímu vstupu) s významným vstupem zvýší, naopak v gene locus s méně signifikantním vstupem se počet jedinců snižuje. Tento fakt může být využit pro zjišťování významnosti vstupu (příznaku). V každé vrstvě sítě, po ukončení genetického algoritmu v poslední epoše, před procesem selekce nejlepších jednotek, spočteme kolik jednotek je propojeno ke každému vstupu. Toto číslo je sčítáno pro každý vstup zvlášť. Pokud vydělíme takové číslo počtem všech jednotek, které jsou propojené na vstupy, získáme signifikantnost jednotlivých vstupů. 3.4.2 WEKA WEKA (Waikato Enviroment for Knowledge Analysis) je [19] Soubor strojově učících algoritmů pro účely data mining. Algoritmy mohou být použity přímo aplikací na soubor dat nebo volány z aplikací programovaných v JAVA. WEKA obsahuje nástroje pro předzpracování dat, klasifikaci, regresní analýzu, vizualizaci a mnoho dalšího. WEKA je také velmi dobře použitelná pro vývoj nových učících modelů. V nástroji WEKA je selekce příznaků rozdělena do dvou samostatných procesů. První je „metoda vyhledání příznaků“ (Feature search method) a druhým procesem jsou metody hodnocení příznaků (feature subset evaluator). V následujících odstavcích pouze krátce popíši použité metody. Více informací lze nalézt v [8].
Obrázek 3.11: Obrázek 3: Ukázka uživatelského rozhraní nástroje WEKA
27
3.4.2.1 Metody vyhledání příznaků (Feature search methods) Vyhledávací metody procházejí celý prostor příznaků a snaží se nalézt vhodnou podmnožinu. Kvalita výběru je měřena jednou ze zvolených metod feature subset evaluator. BestFirst BestFirst vylepšuje hladový algoritmus zpětným vyhledáváním. Nastavitelným parametrem je počet složek, které musí být přímo vypočteny, než dochází ke zpětnému prohledávání. Metoda může prohledávat dopředu z prázdné množiny příznaků, zpětně z plné množiny nebo začínat v přechodném bodě (specifikován listem příznaků) a prohledávat v obou směrech. GeneticSearch GeneticSearch používá jednoduchý genetický algoritmus [20]. Parametry jsou velikost populace, počet generací a pravděpodobnost křížení a mutace. Ranker Ranker není prohledávací metoda, alespoň ne ve stejném smyslu jako obě předcházející metody. Je to hodnotící schéma pro jednotlivé příznaky. Příznaky jsou seřazeny dle jejich individuálních ohodnocení a mohou být použity vždy pouze s vybraným hodnotícím příznakem (hodnotitelem). Ranker pouze nehodnotí příznaky, ale i vylepšuje selekci příznaků odstraňováním nízce hodnocených jedinců. Práh pro vyloučení jedinců z množiny lze nastavit, stejně tak počet koncových příznaků může být nastaven. 3.4.2.2 Metody hodnocení příznaků (Feature subset evaluator) Hodnotící metoda vybere podmnožinu příznaků a vrací míru kvality zvolené podmnožiny. Tato hodnota je pak základem pro další prohledávání. CfsSubsetEval CfsSubsetEval ohodnocuje individuálně predikční schopnosti každého parametru a stupeň jejich redundance. Tento postup preferuje množiny příznaků, které jsou vysoce korelované s výstupní hodnotou (hodnotitel) a přitom nejsou korelované mezi vzájemně. Tato metoda je používána společně Ranker prohledávací metodou pro generování hodnotících listů, ze kterých Ranker vyřadí nevýznamné. InfoGainAttributeEval InfoGainAttributeEval volí příznaky měřením jejich informační váhy vzhledem k výstupní hodnotě. 28
ChiSquaredAttributeEval ChiSquaredAttributeEval volí příznaky výpočtem chí statistiky s ohledem na výstupní hodnotu.
29
Část II Experimenty
30
4 Detailní seznámení s problémem „srovnávací studie v rekondičním centru“ 4.1 Popis projektu rekondičního centra Cílem srovnávací studie v rekondičním centru bylo prokázat zřetelný efekt pohybové aktivity na některé parametry metabolického syndromu bez ohledu na redukci hmotnosti. Výsledky testů kvantifikovat a získat s určitou pravděpodobností schopnost predikovat účinek individuálně stanovené pohybové aktivity pacientů. V důsledku tak výrazně zvýšit complianci nemocných a adherenci k léčebnému procesu. Obezita patří k nejčastějším onemocněním v České republice, v Evropě i Severní Americe. Nemocných s vyšší než normální hmotností (tedy s nadváhou a obezitou je v naší populaci okolo 75 %). S obezitou je spojena řada komplikací, které obecně můžeme rozdělit např. na mechanické nebo metabolické. Z mechanických to jsou např. dorzalgie, dušnost, spánková apnoe, varixy, artrózy atd. Obecně o nich můžeme říci, že čím větší pokles hmotnosti u nemocného, tím větší efekt na zmírnění obtíží nemocného. Na druhou stranu jsou komplikace metabolické (např. inzulínová rezistence, diabetes mellitus, hyperlipoproteinémie, ischemická choroba srdeční, hypertenze, některá nádorová onemocnění apod.), u kterých platí, že i relativně menší úbytek hmotnosti (5‐10% BMI) výrazně vylepšuje prognózu a snižuje metabolická rizika. Naším cílem bylo z dat získaných v rekondičním centru vyvodit závěry k těmto úkolům: • • •
•
Zjistit signifikanci jednotlivých změn (HbA1C, C‐peptid, hmotnost, BMI, IRI …) Korelace změn k bazálním hodnotám – zjistit zda je možné predikovat změny na základě bazálních hodnot nebo změn v průběhu testu. Sestavit predikční rovnici pro výslednou hmotnost na základě vstupního testu. Dále pak analyzovat, které parametry se uplatňují a zjistit, zda lze předvídat na základě testů nějaké změny. Provést shlukovou analýzu, klasifikovat třídy pacientů s podobnými reakcemi.
4.2 Databáze pacientů Do studie byli vybráni pacienti obezitologického centra III. Interní klinice l. LF UK Praha. Jako základní vstupní kritéria byly stanoveny: Vstupní kritéria • • •
Věk 20‐60 let muži, ženy BMI dle stratifikačního výběru (viz. 3.4) Přítomnost diabetu mellitu 2. typu u poloviny nemocných 31
Vylučovací kritéria • • • • • •
Současná pohybová aktivita více než 2 x týdně Nekontrolovaná arteriální hypertenze Léky ovlivňující tepovou frekvenci (Betablokátory a další antiarytmika) Manifestní ICHS Další přidružená onemocnění vylučující doporučenou pohybovou aktivitu Agresivní redukce v posledních 2 letech (bandáž, redukční pobyty apod.)
Celkem jsme obdrželi anonymizovaná data o 56 pacientech. Každý pacient byl podroben vstupnímu testu a po dobu 3 měsíců pravidelně prováděl fyzickou aktivitu pod dohledem odborníků z rekondičního centra. Na konci období byl proveden výstupní test.
4.3 Sběr dat Každý pacient byl podroben vstupnímu a výstupnímu testu v laboratořích III. Interní kliniky l. LF UK Praha. Data byla podrobně zpracována a výsledky uloženy do databanky ve formátu MS Excel. Vstupní test • • • • • • • • • • •
Podrobný dotazník jídelních zvyklosti Dotazník rodinné anamnézy na výskyt jednotlivých složek metabolického syndromu Dotazník pohybové aktivity Výška, váha, obvod pasu, krevní tlak Antropometrické vyšetření Bioimpedance TANITA, multifrekvenční, bioimpedance Ionty, KO, CRP Inzulín, Leptin, Betahydroxybutyrát, Kortizol, SHBG, STH Spiroergometrie pro stanovení V02 max a stanovení doporučené tepové frekvence odpovídající /VO2 max při 60%) 60 minutový test ke stanovení schopnosti navodit lipolýzu a 60 minut po cvičení pouze z prstu stanovení Medisense Stanovení hladiny BOHB Medisense papírkovou metodou ve 20té a 40té minutě
Výstupní test (po 14 týdnech) •
Podrobný dotazník jídelních zvyklosti
•
Dotazník pohybové aktivity
•
Výška, váha, obvod pasu, krevní tlak
•
Antropometrické vyšetření
• •
Bioimpedance TANITA, multifrekvenční, bioimpedance Ionty, KO, CRP 32
•
Inzulín, Leptin, Betahydroxybutyrát, Kortizol, SHBG, STH
•
Spiroergometrie pro stanovení V02 max a stanovení doporučené tepové frekvence odpovídající /VO2 max při 60%)
•
60 minutový test ke stanovení schopnosti navodit lipolýzu a 60 minut po cvičení pouze z prstu stanovení Medisense
•
Stanovení hladiny BOHB Medisense papírkovou metodou ve 20té a 40té minutě
4.4 Skupiny pacientů a jejich specifika Pacienty zařazené do testu lze rozdělit do skupin dle hodnoty Body Mass Indexu (dále jen BMI). Index je vypočten z hmotnosti a obvodu pasu pacienta. • • • •
Pacienti s nadváhou (BMI 26‐30) Pacienti s obezitou prvního stupně (BMI 30‐35) Pacienti s morbidní obezitou (BMI nad 35) Kontrolní štíhlí pacienti (BMI pod 26)
Skupiny lze samozřejmě dále dělit dle pohlaví, věku apod. Na počátku testování naměřených dat jsme neměli k dispozici žádné informace o specifikách jednotlivých skupin pacientů.
4.5 Použitá výpočetní technika a programové vybavení Zpracování dat probíhalo na stroji s procesorem Intel Pentium Centrino 1.6 MHz a architekturou x86 32. Veškeré zpracování probíhalo softwarově. Základní programové vybavení pro zpracování dat neuronovou sítí SOM a zobrazení pomocí PCA byl používán program Matlab 7.1 od společnosti MathWorks. Pro analýzu signifikantních příznaků jsem použil softwarový nástroj WEKA. Stanovení predikční rovnice a analýza signifikantních příznaků byla prováděna v nástroji GAME. Pro statistické zpracování dat jsem používal program Excel z kancelářského balíku Microsoft Office. Software • • • • •
OS MS Windows XP SP2, x86 32 MathWorks MATLAB 7.1 ‐ toolbox: SOM toolbox 2.0 Microsoft Office 2007 – Excel WEKA GAME
4.6 Předzpracování dat 4.6.1 „Hrubé“ předzpracování dat – data clearing Pro provedení analýzy jsme obdrželi data celkem 56 pacientů, kteří již dokončili tří měsíční léčbu a absolvovali vstupní i výstupní test. U každého pacienta byly teoreticky zaznamenány hodnoty celkem 76 parametrů. Pro provedení hlubšího prozkoumání dat bylo zjištěno, že u převážné většiny pacientů některé hodnoty parametrů nejsou zaznamenány. Tyto parametry proto byly pro další zpracování vyřazeny (viz. tabulka 4.1). 33
DM‐pad DM‐inz Leptin_2 Leptin_3 MCP1_2 MCP1_3 IL8_2 IL8_3 TK_ihned s TK_ihned d IL6_1 IL6_2 NGF_1 NGF_2 HGF_1 HGF_2
HTN‐lék L_1B INZ_1 TK_klid_s TK_3min s IL6_3 NGF_3 HGF_3
HLP‐stat L_2B INZ_2 TK_klid_d TK_3min d IL1_beta‐1 TNF_1
HLP‐fib L_3B INZ_3 TK_100s TK_5min s IL1_beta2 TNF_2
Leptin_1 MCP1_1 IL8_1 TK_100d TK_5min d IL1_beta3 TNF_3
Tabulka 4.1: Seznam vyřazených parametrů pacientů.
Z důvodů výskytu pacientů, u kterých i po redukci parametrů chyběly hodnoty u více jak 4 parametrů došlo k další redukci. Z celkového počtu 56 pacientů bylo pro další experimenty 5 pacientů vyřazeno. 4.6.2 Doplnění chybějících hodnot Pro doplnění chybějících hodnot v datech zredukovaných v kapitole 4.6.1 jsme použili metodu „Nahrazení chybějících hodnot nebližšími sousedy“ [2]. Tato metoda je již implementována v nástroji GAME. Metoda pracuje na principu zjištění „nejméně vzdálených“ záznamů přes všechny parametry od záznamu s chybějící hodnotou parametru. Chybějící hodnota je nahrazena aritmetickým průměrem n parametrů „nejbližších záznamů (sousedů)“.
5 Zkušební databáze pacientů Tato databáze obsahovala pouze 16 pacientů. Na takto malém rozsahu dat jsme se učili zacházet s daty. Získali jsme několik cenných zkušeností, které potom byly následně použity u kompletní databáze. Množství parametrů testovací databáze byl vyšší než uvedené v odstavci 4.6.1. Po odstranění parametrů s nekompletními daty jsme měli možnost pracovat s databází 16 pacientů. Každého pacienta popisoval vektor o 43 položkách.
5.1 Volba vhodných příznaků Parametry pro testovací databázi byly jiné než uvedené v 4.6.1. Z chyb učiněných v tomto prvním testování jsme se později pokusili poučit a zlepšit volbu parametrů. Zjistili jsme, že s mohutností vstupního vektoru úzce souvisí schopnost kvalitně vizualizovat výsledky v SOM. Jako parametry vhodné pro výstupní klasifikační účely jsme zvolili BMI, Kreatinin a BOH.
5.2 Rozbor dat Pomocí SOM toolboxu v programu matlab jsme zpracovali data. Zkoušeli jsme především možnosti vizualizace dat a hledali rozdílnosti dat v rámci skupin. Klasifikace nešla na tak 34
malém vzorku pacientů provádět. Na základě testů provedených na zkušební databázi nelze provést žádná zobecnění ani závěry. V důsledku malého počtu pacientů jsme mohli naopak velmi dobře vizualizovat Kohonenovu mapu. Ověřili jsme si klasifikační schopnosti SOM. Na obrázku 5.1a je vidět U‐matice testovací databáze pacientů ve srovnání s kvalitně klasifikovaným pomocným souborem dat pro účely porovnání (obrázek 5.1b). Je zřejmé, že skupiny pacientů z testovací databáze jsou vzájemně promícháni. Cílem zkoumání v dalších kapitolách bude vybrat pouze ty vstupní parametry souboru dat, které jsou významné pro správnou klasifikaci pacienta do požadované skupiny tak, neboli redukovat vstupní vektor dat.
(a)
(b)
Obrázek 5.1: Porovnání U matice SOM dat, která se nepodařilo v SOM klasifikovat (a), a která jsou naopak zřetelně shlukované a lze je tedy klasifikovat (b).
35
Obrázek 5.2: PCA projekce nesprávně klasifikovaných dat. Ve zvýrazněných elipsách se nacházejí nežádoucí shluky pacientů.
Obrázek 5.3: PCA projekce vhodně klasifikovaných dat. Z projekce dat je zřetelná klasifikace pacientů na skupinu A a B.
6 Analýza dat – kompletní databáze pacientů V následujících odstavcích se budeme zabývat analýzou dat kompletní databáze. Analýzu rozdělíme na několik částí. V první části budou pacienti rozděleni do skupin pomocí shlukové analýzy. S takto vytvořenými skupinami již můžeme provádět experimenty v nástrojích WEKA a GAME za účelem výběru signifikantních parametrů. V závěru se zaměříme na predikční rovnice hmotnosti a dalších parametrů vypočtených na základě bazálních hodnot parametrů získaných při vstupním testu. 36
6.1 Klasifikace dat a výběr signifikantních parametrů Abychom mohli provést kvalitní analýzu dat, museli jsme pacienty klasifikovat do vhodných skupin. Klasifikace byla provedena dle několika parametrů pacienta s ohledem na požadavky zadavatele diplomové práce tak, abychom v další fázi mohli provést analýzu signifikantních parametrů pomocí T test a F testu, významnost parametrů dále potvrdit nástroji WEKA a GAME a konečně data „vyčištěná“ od nevýznamných parametrů vizualizovat v SOM. Obecně se klasifikace prováděla následujícím způsobem. Pacienti byli dekomponováni na dvě skupiny dle požadovaného referenčního parametru. T testem na hladině významnosti 0.01 bylo testováno, zdali platí hypotéza o středních hodnotách skupin H0:
1
µ2 proti H1:
1
µ2,
(6.1)
kde µ1 značí střední hodnotu referenčního parametru první a µ2 střední hodnotu druhé skupiny pacientů. Pokud lze zamítnout nulovou hypotézu H0, je předpoklad výskytu signifikantních parametrů. V druhém kroku byla provedena shluková analýza nad rozdílovými daty pacientů (matice rozdílů výstupních a vstupních hodnot všech parametrů všech pacientů) pomocí SOM. Dílčí výsledky byly vizualizovány pomocí U‐matice a PCA projekce. Cílem bylo nalézt zřetelně ohraničené clustery pacientů vypovídající o přítomnosti významných parametrů (příznaků) v datech. Jednotlivé parametry již dekomponovaných dat pak byly podrobeny statistickému testování. Hypotézy byly dvě, jedna o střední hodnotě parametrů (6.2) a druhá o rozptylech (6.3). Hypotéza o středních hodnotách parametrů ve skupinách pacientů H0: kde značí i‐tý parametr a
,
,
,
proti H1:
,
,
,
(6.2)
značí střední hodnotu i‐tého příznaku v j‐té skupině.
Hypotéza o rozptylech parametrů ve skupinách pacientů H0: kde
,
,
,
proti H1:
,
,
,
(6.3)
značí rozptyl i‐tého parametru v j‐té skupině.
Stejná data byla testována nástroji WEKA a GAME na nalezení signifikantních parametrů. Dle získaných výsledků byl vstupní vektor dat redukován. Na závěr byla znovu provedena vizualizace pomocí SOM pro ověření výsledků. 6.1.1 Klasifikace dle změny BMI Prvním parametrem zvoleným pro klasifikaci byl BMI. Na základě T testu jsme zamítli nulovou hypotézu (6.1) na hladině významnosti 0.01. Korelační analýzou bylo zjištěno, že parametr BMI vysoce koreluje s hmotností a obvodem pasu pacienta (zjištění koresponduje 37
se vzorcem pro výpočet BMI). Z dat byly tedy pro účely klasifikace v SOM odebrány parametry hmotnost, obvod pasu a BMI. 6.1.1.1 Vizualizace dat Upravená databáze byla rozdělena na skupinu A (na konci léčby došlo ke snížení BMI oproti vstupním hodnotám) s celkovým počtem 40 pacientů a skupinu B o 11 pacientech. Základní pohled na naučenou Kohonenovu mapu zobrazenou pomocí U‐matice (obr. 6.1a) nám prozrazuje, že skupiny pacientů se vzájemně prolínají a nelze nalézt zřetelné hranice mezi shluky dat. V PCA projekci (obr. 6.1b) nenalezneme o mnoho více informací. Domnívám se, že důvodem mohou být rozdílné reakce mužů a žen. Proto jsme stejná data navíc rozdělili na 2 testovací soubory – ženy, muži. Provedli jsme opět klasifikaci pomocí SOM (obr. 6.2‐3.). I po rozdělení dat dle pohlaví jsme však nedosáhli výrazně lepších výsledků. Možnou příčinou může být malý rozsah testovací množiny. Typ rozdělení Unisex Ženy Muži
Skupina A (redukce BMI) 40 32 8
Skupina B (nárůst BMI) 11 10 1
Tabulka 6.1: Počty pacientů v jednotlivých skupinách BMI dle typu rozdělení dat.
(a)
(b)
Obrázek 6.1: U‐matice a PCA projekce dat rozdělených dle ∆BMI – bez rozdělení na pohlaví
(a)
(b)
Obrázek 6.2: U‐matice a PCA projekce dat rozdělených dle ∆BMI –pouze ženy
38
(a)
(b)
Obrázek 6.3: U‐matice a PCA projekce datt rozdělených d dle ∆BMI –pouzze muži
Černé body v U‐‐maticích zn názorňují pacienty zařaazené do skkupiny A, šeedé body paak pacientyy ze skkupiny B. Vee všech příp padech je p patrné, že z výsledků SOM nelze p při takto nízzkém počtu u pacieentů vyvodit konkrétníí závěry. 6.1.1 1.2 Rozbor signifika antních parrametrů Test středních hodnot ukázal na několik n výzznamných parametrů. Vzhledem m k velkým m rozpttylům (viz. obrázek 6.5, F test) a a malému počtu p testo ovaných paccientů jsme e zvolili pro o výběěr významnýých parameetrů hranici na kvantilu na hladině významnossti 20%. F te est bohužell u paarametrů Beta_OH_1 B a Beta_OH_2, kterými se bud deme zabývvat i v dalšší kapitole,, prozrazuje vysoký rozptyl h hodnot. Pro oto nelze po ovažovat výssledky T tesstu u těchto o hodnot zaa relevvantní. Test středn ních hodnott skupin dle e ∆BMI
4
Hodnota statistiky T [‐]
3 3,5 3
2 2,5 2
Kvantil na hl. v. 5% n
1 1,5 1
Kvantil n na hl. v. 20% %
0
věk HTN HLP pohlaví urea kreatinin AST GMT ALT glykémie HBA1c C_peptid IRI Choleste… HDL_ch… LDL_chol_ Atero_in… Triglycer… CRP beta_OH… beta_OH… beta OH beta_OH… X__těl__… TF_max VO2_ma… W_max W
0 0,5
39
Obrázek 6.4: TTest středních h hodnot skupin rozdělených dlle ∆BMI
nástrojem WEKA W byl proveden 10‐krát, 1 v kkaždém opakování byyly vstupní data Test dat n permutováána. Výsled dná hodnotta významn nosti param metru tak vyjadřuje p průměrný počet p výběrů parametru mezi signifikaantní při deseti opako ováních. Taakto jsme m měření zpře esnili. Významné parametry přibližněě odpovídaají paramettrům získaným při TT testu. Všše je zobrazeno na obrázku u 6‐6a. Analýza nástrojjem GAME byla proved dena 5krát. V grafu 6‐6 6b lze pozorovat procentuální významn nost jednotlivých param metrů včetn ně rozptylu. Test shody rozp ptylů skupin n dle ∆BMI
30
Hodnota statistiky F [‐]
25 20 15 10 5
věk HTN HLP pohlaví urea kreatinin AST GMT ALT glykémie HBA1c C_peptid IRI Cholester… HDL_chol_ LDL_chol_ Atero_in… Triglyceri… CRP beta OH 1 beta_OH_1 beta_OH_2 beta_OH_3 X__těl__t… TF max TF_max VO2_ma… W_max
0
Kvvantil na hl. vv. 5% Kvvantil na hl. vv. 20%
Obrázek 6.5: TTest rozptylů hodnot skupin rrozdělených dle e ∆BMI
Obrázek 6.6: Box plot WEKA a G GAME analýzy ssignifikantních parametrů
hrnutí 6.1.1.3 Sh Data pacieentů byly úspěšně ú dekkomponováány na 2 skkupiny. Pro další prácii byl soubo or dat zúžen pouze na paraametry dle tab. 6.2. Vizualizace V upravených u h dat v SOM M je v porovnání 40
s počátečními daty zřetelně vylepšena. Na U‐matici 5‐4a lze úspěšně pozorovat klasifikaci dat na skupiny. AST
GMT
LDL_chol_
Atero_index
ALT
HLP
HBA1c
Triglyceridy
X__těl__tuku
VO2_max_kg
Cholesterol
Tabulka 6.2: Seznam signifikantních parametrů dle ∆BMI
(a)
(b)
Obrázek 6.7: U‐matice a PCA vyfiltrovaných dat – bez rozdílu pohlaví
6.1.2 Klasifikace dle BOH2_1 Abychom ověřili hypotézu, že pacienti s neschopností produkovat vysoké hodnoty betahydroxybutyrátu (dále jen BOH) jako markeru ketogeneze (proces vedoucí k redukci váhy) ihned po výkonu jsou v procesu hubnutí méně úspěšní oproti pacientům, kteří dokážou ihned po výkonu vyprodukovat vysoké hodnoty BOH, upravili jsme vstupní data pro T test a SOM. Data byla rozdělena na 2 skupiny pacientů (každý pacient 26 parametrů. Každý parametr je rozdíl hodnoty výstupního testu oproti hodnotě vstupního testu). Skupina A – záporné BOH, skupina B – nezáporné BOH. 2_1
2
1,
(6.3)
kde BOH1 je naměřená hodnota BOH před fyzickým testem a BOH2 naměřená hodnota BOH ihned po ukončení fyzického testu (BOH1 i BOH2 jsou hodnoty měřené při výstupním testu). Hypotézu H0 (6.1) pro rovnost středních hodnot referenčních parametrů skupin lze zamítnout. Souhrn počtu pacientů v jednotlivých skupinách je v tabulce 6.3. Typ rozdělení Unisex Ženy Muži
Skupina A (záporné BOH2_1) 40 32 8
Skupina B (nezáporné BOH2_1) 11 10 1
Tabulka 6.3: Počty pacientů v jednotlivých skupinách BOH2_1 dle typu rozdělení dat.
41
6.1.2.1 Vizualizace dat
(a)
(b)
Obrázek 6.8: U‐matice a PCA projekce dat rozdělených dle BOH2_1 – bez rozdělení na pohlaví
(a)
(b)
Obrázek 6.9: U‐matice a PCA projekce dat rozdělených dle BOH2_1 – pouze ženy
(a)
(b)
Obrázek 6.10: U‐matice a PCA projekce dat rozdělených dle BOH2_1 – pouze muži
Ze SOM opět vyplývá, že data jsou silně „zašuměna“ a nelze pozorovat konkrétní shluky pacientů. 42
6.1.2 2.2 Rozbor signifika antních parrametrů Ze sttatistického o testování vyplývá, žee nulovou hypotézu h H0 (6.2) lze zamítnout na hladiněě významnosti 0,0 05 u 4 paraametrů, na hl. význam mnosti 0,2 pak dokoncce u 8 paraametrů (vizz obrázek 6.12). U těchto parametrů tedy předpokládáme, že jsou vvýznamné pro změnu u BOH2_1. Rozptyyl hodnot see až na 4 paarametry po ohybuje pod d kritickou h hodnotou, ttakže T testt lze považovat p za korektní. Překvapivéé výsledky d dává nástro oj WEKA. I po opakovaaném testu u s perrmutací vstupních datt tak, aby se s minimaliizovala chyba, nástroj za význam mné označill pouzze 2 parameetry (obrázeek 6.11a). N Naopak výsledky nástroje GAME jjiž potvrzujíí statistickáá data.
Obrázek 6..11: Box plot W WEKA a GAME a analýzy signifikkantních param metrů
T Test střední ch hodnot sskupin dle B BOH2_1
2,5
Hodnota statistiky T [‐]
2
Kvantil na hl. v. 5% n
1,5
Kvantil n na hl. v. 20% 1
0
věk HTN HLP pohlaví urea kreatinin AST GMT ALT glykémie HBA1c C_peptid IRI Cholesterol HDL_chol_ LDL_chol_ Atero_ind… Triglyceridy CRP váha__kg_ obvod_pa… BMI X__těl__t… TF_max _ VO2_max… W_max
0,5
Obrázek 6.12: Test stře edních hodnot sskupin rozdělených dle BOH2 2_1
43
Test sshody rozpttylů skupin dle BOH2_1 1
10 9
7 6 5 4 3 2 1
Kvaantil na hl. v. 5% Kvaantil na hl. v. 20%
0
věk HTN HLP pohlaví urea kreatinin AST GMT ALT glykémie HBA1c C_peptid IRI Cholesterol HDL_chol_ LDL_chol_ LDL chol Atero_ind… Triglyceridy CRP váha kg váha__kg_ obvod_pa… BMI X__těl__t… TF_max VO2_max… W_max
Hodnota statistiky F [‐]
8
O Obrázek 6.13: T Test rozptylů ho odnot skupin ro ozdělených dle e BOH2_1
6.1.2.3 Sh hrnutí Z výsledků vyplývá, že za signifiikantní parametry změny BOH před p a po vvykonání fyyzické zátěže lze považovatt 11 parametrů (viz. tabulka t 6.4). Vizualizace v SOM (obr. 6.14) však ukazuje, že přes provedenou reedukci vstu upního vekttoru param metrů dat shluková an nalýza nevykazujee zcela usp pokojivá daata. Vazba mezi změnou hmotn nosti a změnou BOH byla částečně p potvrzena. V Více se této problematice věnuje kkapitola 6.2 2. věk
ure ea
CRP
váha_ __kg_
k kreatinin
VO2_max_ _kg
W_ _max
ob bvod_pasu
BMI
X__těll__tuku
TF_max
Tabulka 6.4 4: Seznam signifikantních para ametrů dle BOH H2_1
(a)
(b))
Obrázek 6.14:: U‐matice a PC CA projekce již redukovaných dat rozdělenýcch dle BOH2_11 – bez rozdělen ní na pohlaví
44
6.1.3 Klasifikace dle ∆Kreatininu Posledním parametrem vybraným jako referenční pro klasifikaci byl zvolen kreatinin. Opět byla data rozdělena na 2 skupiny. Skupiny pacientů, u kterých se hodnota kreatininu na výstupním testu oproti vstupnímu snížila a na skupiny se zvýšenou hladinou kreatininu na výstupním testu. Cílem bylo opět nalézt signifikantní parametry ovlivňující změnu kreatininu. Souhrn počtu pacientů v jednotlivých skupinách je v tabulce 6.5. Typ rozdělení Unisex Ženy Muži
Skupina A (záporný Kreatinin) 26 21 5
Skupina B (nezáporný Kreatinin) 25 21 4
Tabulka 6.5: Počty pacientů v jednotlivých skupinách dle typu rozdělení dat.
6.1.3.1 Vizualizace dat
(a)
(b)
Obrázek 6.15: U‐matice a PCA projekce hodnot rozdělených dle ∆Kreatininu – bez rozdělení na pohlaví
(a)
(b)
Obrázek 6.16: U‐matice a PCA projekce hodnot rozdělených dle ∆Kreatininu – pouze ženy
V obrázku 5‐9a lze pozorovat clustery pacientů (horní až centrální část a spodní část u‐ matice). Z těchto poznatků lze usuzovat na dominantní parametry ovlivňující hladinu kreatininu.
45
(a)
(b)
Obrázek 6.17: U‐matice a PCA projekce hodnot rozdělených dle ∆Kreatininu – pouze muži
6.1.3.2 Rozbor signifikantních parametrů Očekávaný dominantní parametr T testem (obrázek 6.19) ani analýzou v GAME (obr. 6.18b) a WEKA (obr. 6.18a) nebyl potvrzen. Jako vysoce signifikantní lze však považovat parametry HTN, LDL_chol, dále pak vzájemně korelovanou skupinu parametrů ALT, GMT, AST a stejně tak i vzájemně korelovanou skupinu parametrů BMI a hmotnost. U parametrů ALT, AST, Beta_OH_2 musíme být s interpretací výsledků velmi obezřetní s ohledem na vysoký rozptyl potvrzený F testem (obr. 6.20).
Obrázek 6.18: Box plot WEKA a GAME analýzy signifikantních parametrů
46
0
14
0
věk HTN HLP pohlaví urea AST GMT ALT glykémie HBA1c C_peptid _p p IRI Cholesterol HDL_chol_ LDL_chol_ _ _ Atero_ind… Triglyceridy CRP beta_OH_1 beta_OH_2 beta_OH_3 váha__kg_ pa… obvod_p BMI X__těl__t… TF_max VO2_max… W_max
Hodnota statistiky T [‐] 2
věk HTN HLP pohlaví urea AST GMT ALT glykémie HBA1c C_peptid _p p IRI Cholesterol HDL_chol_ LDL_chol_ _ _ Atero_ind… Triglyceridy CRP beta_OH_1 beta_OH_2 beta_OH_3 váha__kg_ pa… obvod_p BMI X__těl__t… TF_max VO2_max… W_max
Hodnota statistiky F [‐]
2,5
Test středních ho odnot skupiin dle změn ny Kreatinin nu
Kvantil na hl. v. 5% n
1,5
Kvantil n na hl. v. 20%
1
0,5
ptylů hodnot skupin dělených h dle ∆kreatinin nu Obrázekk 6.20: Test rozp
47
Obrázek 6.19: Test středních hodnot sskupin dělených dle ∆kreatiniinu
Test shody rozp ptylů skupin n dle změnyy Kreatininu u
12
10
8
6
4
2 Kvantil na hl. v. 5%
Kvantil na hl. v. 20%
6.1.3.3 Shrnutí Pro další testování byly vybrány parametry dle tabulky 6.6. Výsledky redukovaných dat byly opět vizualizovány v SOM (Obr. 5.12b). věk
HTN
AST
GMT
ALT
HBA1c
C_peptid
LDL_chol_
Beta_OH_2
Beta_OH_3
váha__kg_
BMI
X__těl__tuku Tab. 6‐6 Seznam signifikantních parametrů dle Kreatininu
(a)
(b)
Obrázek 6.21: U‐matice a PCA projekce hodnot s již redukovanými parametry rozdělených dle ∆Kreatininu – bez rozdělení na pohlaví
6.1.4 Shrnutí výsledků klasifikace Z provedených testů vyplývá několik zajímavých poznatků. •
•
•
Nepotvrdil se předpoklad, že data pacientů je nutné dekomponovat na skupiny dle pohlaví. Ani v jednom z provedených testů nebyl parametr pohlaví vyhodnocen jako signifikantní. Hypotéza o závislosti redukce hmotnosti na schopnosti produkovat vysoké hodnoty BOH ihned po vykonané fyzické aktivitě se může zakládat na reálných základech. Zařazení pacienta do skupiny dle ∆BOH2_1 bylo signifikantně závislé na změně hmotnosti pacienta. Pro potvrzení hypotézy se problému dále věnujeme v kapitole 6.2. Některé skupiny parametrů jsou vzájemně vysoce korelované a to: o ALT, AST, GMT o BMI, Váha_kg, Obvod_pasu
6.2 Vyhodnocení vlivu BOH na vliv redukce hmotnosti V této kapitole se zaměříme na detailní rozbor parametrů Beta_OH_1 až Beta_OH_3 (dále jen BOH1 až BOH3). Jak už bylo vysvětleno v kapitole 6.1.2, je dán předpoklad, že pacienti se schopností produkovat vysoké hodnoty betahydroxybutyrátu (BOH) ihned po ukončení fyzického výkonu mají vyšší úspěšnost v procesu hubnutí. Ve stejné kapitole jsme provedli klasifikaci dle rozdílu BOH před a ihned po ukončení fyzické zátěže. Z výsledků vyplývá, že
48
mezi významnými parametry, které ovlivňují změnu BOH parametry hmotnost a BMI figurují, ale výsledky nejsou zcela jednoznačné. Rozdělili jsme pacienty dle absolutní změny hmotnosti po ukončení léčby na 5 skupin. Skupiny pacientů byly stanoveny tak, abychom získali 2 s extrémními, vzájemně opačnými hodnotami (extrémní redukce, extrémní nárůst váhy), skupinu pacientů s průměrnou změnou hmotnosti a nakonec 2 skupiny „přechodových“ pacientů (pacienti, kteří váhu redukovali či zvýšili, ale nikoliv extrémně a průměrně). Skupina
Interval změny hmotnosti <‐13,5; ‐8,5> (‐8,5;‐7,3) <‐7,3;0> (0;1,5) <1,5;6,3>
A E B F C
Počet pacientů
Barva (v U matici)
7 4 29 3 8
Červená Žlutá Zelená Světle modrá Tmavě modrá
Tabulka 6.6: Rozřazení pacientů do skupin dle změny hmotnosti
Jako vstupní, potenciálně signifikantní parametry jsme zvolili všechny významné parametry z kapitoly 6.1.1 (resp. rozdíl hodnot výstupního a vstupního testu těchto parametrů). Tento krok si můžeme dovolit s ohledem na fakt, že parametr BMI a hmotnost (v grafech váha_kg_) jsou vysoce korelované a lze tedy předpokládat stejné výsledky pro oba parametry. Dále jsme přidali parametry BOH2_1, BOH3_1 a BOH3_2, kde 2_1
2
1,
3_1
3
1,
3_2
3
(6.4) 2,
BOH1, BOH2 i BOH3 jsou hodnoty měřené při výstupním testu. Na takto připravených datech chceme vyhodnotit, která ze změn BOH a jak ovlivňuje výslednou změnu hmotnosti pacientů 6.2.1 Statistické testování Naším cílem je nalézt statisticky významné rozdíly mezi jednotlivými skupinami pacientů. Tedy zda existují nějaké statisticky významné parametry, které by byly podstatné pro rozlišení těchto skupin. Neboli chceme vědět, zda střední hodnoty parametrů v jednotlivých skupinách jsou stejné. Takováto formulace otázky odpovídá statistické metodě ANOVA (viz. kapitola 2.4). Snažíme se zamítnout hypotézu o rovnosti středních hodnot příznaků v jednotlivých skupinách. :
,
,
,
,
,
:
š
,
é (6.5)
kde označuje střední hodnotu i‐tého parametru ve skupině skup. Výsledky , statistického testování ANOVA jsou zobrazeny na obr. 6.22. Nejprve k významu grafu. Opět jsou vyneseny hodnoty F statistiky pro jednotlivé parametry. Pokud je hodnota F statistiky dostatečně vysoká, slouží jako důkaz pro zamítnutí hypotézy o rovnosti středních hodnot tohoto parametru v jednotlivých skupinách. Opět jsou zobrazeny kvantily na hladinách 49
05, 0.01 (přřerušované vodorovné é přímky v grafu). Jestliže F stattistika významnossti 0.2, 0.0 překročí některý n z ttěchto kvaantilů, lze hypotézu (6.5) zam mítnout naa dané hlaadině významnossti. Tesst středních h hodnot dle ANOVA
7
Hodnota statistiky F [‐]
6 5 4 3 2
Kvaantil na hl. v.. 1% Kvvantil na hl. vv. 5%
antil na hl. v. 20% 1 Kva 0
Obrázek 6.22: Statistické te estování rozdílů mezi středními hodnotami parametrů u skkupin rozdělen ných dle ∆hmottnosti
Z grafu vyplývá, že z hlediska BOH B je význ namná hod dnota celko ové změny BOH před a po d a hodinu u po zátěži. Tato zjištěění korespo ondují fyzické záttěži a zárovveň i rozdíl BOH ihned s předpoklady. Bohužel ale tyto parametry nejsou dom minantní. Neejvýznamněějšími param metry jsou množsství tělesnéého tuku (x__těl_tuku) aa VO2max n na kilogram m (VO2_maxx_kg). Podívváme‐ li se na bo oxploty středních hod dnot těchto o parametrů (obr. 6.2 23a,b), je zřřetelná korrelace Z těchto důvodů těchto parrametrů see změnou hmotnosti. h d jsme se rozho odli provéstt dvě testování vv nástroji GAME. Se so ouborem paarametrů vččetně x_těl__tuku a VO O2_max_kg a bez těchto parrametrů. V druhém V přřípadě očekáváme cittlivější význ namnosti parametrů, které nebudou p potlačeny do ominantním mi parametrry.
50
20,00
Hodnota VO2_max_kg
Hodnota X_tel_tuku
2,00
-1,50
-5,00
-8,50
-12,00
12,50
5,00
-2,50
-10,00 A
B
C
E
F
A
Hmotnostní skupina
a)
B
C
E
F
Hmotnostní skupina
b)
Obrázek 6.23: Boxploty středních hodnot x_těl_tuku a VO2_max_kg u skupin rozdělených dle změny hmotnosti
Pozn.: Kompletní přehled boxplotů středních hodnot parametrů je součástí přílohy této práce. 6.2.2 Vizualizace dat Naše tvrzení lze potvrdit vizualizací obou souborů dat v SOM. Nejprve se podívejme na obr. 6.24a. Z obrázku je patrný vliv dominantních parametrů na výsledné rozvrstvení SOM sítě. Konkrétně parametr x_těl_tuku způsobuje rozvrstvení matice na vrcholy po stranách (skupiny A a C) a na centrální údolí (skupina B). Na obrázku 6.24b se projevil fakt, že se ve vstupních datech nevyskytuje dominantní parametr. Pouze v levém rohu na souřadnicích [0,0,1] dochází k výraznému odlišení pacientů.
a)
b)
Obrázek 6.24: 3D matice vzdáleností dat pacientů pro analýzu BOH včetně parametrů x_těl_tuku a VO2_max_kg (a), bez těchto parametrů (b).
Na obrázku 6.25 vidíme U‐matici obou souborů dat. Jednotlivé skupiny jsou barevně odlišeny (viz. tabulka 6.6). Lze prohlásit, že v souboru dat s dominantními parametry (obr. 6.25a) můžeme vidět požadovanou klasifikaci na skupiny. U souboru dat bez dominantních parametrů (obr. 6.25b) toto chování nepozorujeme. Z těchto výsledků vyvozuji, že změnu hmotnosti nebudeme schopni na základě parametrů BOH3_2 a BOH3_1 s jistotou stanovit.
51
a)
b)
Obrázek 6.25: U‐matice dat pacientů pro analýzu BOH včetně parametrů x_těl_tuku a VO2_max_kg (a), bez těchto parametrů (b).
6.2.3 Analýza v GAME Na základě provedených testů v předchozí kapitole jsme pro analýzu v GAME připravili dva soubory dat pacientů (viz. kapitola 6.2.1). Výsledky opakovaných měření jsou znázorněny v boxplotech. Na obrázku 6.27 jsou zobrazeny jednotlivé parametry (včetně dominantních) a jejich signifikance na výslednou změnu hmotnosti. V grafu na obrázku 6.28 pak všechny parametry kromě dominantních. Z výsledků nelze vyhodnotit, zda nějaký parametr změny BOH významně ovlivňuje absolutní změnu hmotnosti pacientů. Grafy 6.27 a 6.28 jsou s ohledem na BOH vzájemně v rozporu. V grafu 6.27 lze pozorovat, že BOH2_1 je nejvýznamnějším parametrem, naopak v grafu 6.28 jsou všechny parametry BOH silně potlačeny. Domnívám se, že tento fakt je nejvíce ovlivněn nedostatečným testovacím vzorkem pacientů. Problém, který způsobuje rozdílnost výsledků dílčích testů v GAME, vystihuje obrázek 6.26. Ideální výpočetní model podbarvuje fialovou barvou všechny Obrázek 6.26: Vizualizace výsledků v GAME, výskyty pacientů ze skupiny B (fialové čtverce). Jelikož multidimenzionální 2D klasifikace. jsou pacienti různých skupin vzájemně promícháni a počet pacientů ve skupině B je nejvyšší, výsledný výpočetní model vyhodnotí jako výhodnější akceptovat chybu způsobenou překrytím i pacientů z ostatních skupin, než oblast nepokrývat. Na základě těchto předpokladů optimalizuje model výsledné rovnice. 52
Obrázek 6.27: Boxplot signifikance parametrů – včetně dominantních parametrů
Obrázek 6.28: Boxplot signifikance parametrů – bez dominantních parametrů
6.2.4 Shrnutí Provedli jsme analýzu v nástroji GAME a statistické testování. Výsledky testování ukazují, že dostupná data mají vysokou míru „zašumění“. Výsledky v nástroji GAME pak vykazují velkou nekonzistentnost výpočetních modelů způsobenou povahou testovacích dat. S dostupným souborem dat pacientů a po provedení výše popsaných experimentů můžeme s určitou dávkou opatrnosti tvrdit, že rozdíl BOH před a ihned po testu není významným parametrem ovlivňujícím absolutní změnu hmotnosti pacienta během léčby. Významnými, nikoliv však nejvýznamnějšími parametry jsou celkový rozdíl BOH (BOH3‐BOH1) a „hodinový rozdíl BOH (BOH3‐BOH2). 53
6.3 Predikce změn na základě bazálních hodnot V této kapitole jsme se zaměřili na možnost predikovat změny hodnot parametrů na základě bazálních hodnot. Bazální hodnoty získáme ze vstupních testů pacientů. S ohledem na obtížnost klasifikace dat jsme nejprve provedli detailní studii možností predikce změn hmotnosti pacientů. Pro stanovení predikční rovnice hmotnosti používáme nástroj GAME. Pro názornost a možnost porovnání výsledků vytvoříme dva matematické modely predikční rovnice – lineární a složitější nelineární model. Připravili jsme dva soubory dat. V prvním souboru jsou jako vstupní parametry všechny parametry s hodnotami vstupního testu. V případě druhém byly vybrány pouze parametry dle kapitoly 6.2 (včetně dominantních) a navíc hmotnost a obvod_pasu. Takto připravené soubory dat byly opakovaně zpracovány. Nejdříve jsme jako výstupní referenční hodnotu zvolili absolutní změnu hmotnosti, v druhém případě pak byla data klasifikována do skupin stejně jako v kapitole 6.2 (tabulka 6.6). 6.3.1 Analýza dle absolutní změny hmotnosti Jestliže je zvolena jako výstupní referenční hodnota absolutní změna hmotnosti, očekáváme, že pomocí nástroje GAME získáme predikční rovnici, která je na základě bazálních hodnot schopna vypočítat předpokládanou absolutní změnu hmotnosti pacienta po 3 měsíční léčbě s určitou povolenou odchylkou. Postup analýzy byl následující: •
Příprava souborů dat – Dva typy souborů dat dle vstupních parametrů viz. výše, na výstupu hodnota absolutní změny hmotnosti po 3 měsících léčby. Rozdělení souboru dat. Na množinu trénovacích pacientů (70% ‐ 36 pacientů) a množinu testovacích pacientů (30% ‐ 15 pacientů). Výpočet matematického (lineárního i nelineárního) modelu predikční rovnice na trénovacích datech. Výpočet chyby modelu na trénovacích datech. Ověření matematického (lineárního i polynomiálního) modelu predikční rovnice na testovacích datech. Výpočet chyby modelu na testovacích datech. Rozbor výsledků v grafu.
• • • •
6.3.1.1 Konfigurace GAME Po dlouhodobé optimalizaci nastavení GAME jsme použili pro výpočet tyto konfigurace: •
•
Lineární model o Velikost populace: 40 o Epoch: 100 o Pouze lineární typy jednotek Nelineární model 54
o Velikost populace: 35 o Epoch: 100 o Jednotky: Lineární Polynomiální (CombiNeuron, PolySimpleNeuron, PolySimpleNRNeuron, CombiNeuron). Max stupeň polynomu 10. ExpNeuron, SigmNeuron 6.3.1.2 Rozbor výsledků Obecně je vidět, že výsledné modely jsou optimalizované na oblasti, kde bylo nejvíce dat. Konkrétně se jedná o interval změny hmotnosti (‐5;0). Důvodem je, že většina pacientů během léčby redukovala hmotnost a většina z nich se s úbytkem váhy nacházela v tomto intervalu. Výpočetní modely, aby minimalizovaly celkovou chybu, optimalizovaly výsledné predikční rovnice pro tyto případy. V tabulce 6.7 můžeme vidět souhrn výsledků jednotlivých modelů. RMS je chyba modelu (viz kapitola 3.3) vypočtená vždy pro trénovací data a pro kontrolní é a testovací náhodná data (vstupní data stejná, výstupní hodnota je náhodná změna hmotnosti dle normálního rozdělení). Z tabulky je patrné, že oba nelineární matematické modely vykazují velkou přesnost na trénovacích datech. Naopak velkou nepřesnost na datech testovacích. Z těchto výsledků je zřejmé, že v obou případech došlo k přeučení modelu.
é
Linerní model A Linerní model B Nelineární model A Nelineární model B
2,26 3,32 0,52 0,58
8,66 5,31 11,19 39,01
7,15 8,52 8,17 6,73
Rozdíl výpoč. změny vs. reálná [kg]
6 4 2 0 ‐2 ‐15,00 ‐10,00 ‐5,00 0,00 ‐4 ‐6 ‐8
5,00
Rozdíl výpoč. změny vs. reálná [kg]
Tabulka 6.7: Přehled chyb jednotlivých výpočetních modelů (A model – všechny vstupní parametry, B model – redukované vstupní parametry).
10,00
‐20,00
Skutečná změna hmotnosti [kg]
‐10,00
15 10 5 0 ‐5 0,00 ‐10 ‐15
10,00
Skutečná změna hmotnosti [kg]
(a) Trénovací data
Obrázek 6.29: Vizualizace výsledků lineárního modelu A.
55
(b) Testovací data
Graf na obrázku 6.29 vizualizuje výsledky lineárního modelu A. V 6.29a vidíme odchylky jednotlivých výpočtů změny hmotnosti od změny skutečné na trénovacích, v 6.29b pak na testovacích datech. V ideálním případě by body měly „ležet“ na x‐ové ose (nulová odchylka od skutečné změny hmotnosti). V praxi vidíme, že body se nacházejí v blízkosti vedlejší diagonály, s vyšší hustotou v intervalu změny hmotnosti (‐5;0). Dle předpokladu, extrémní změny hmotnosti vykazují vysokou chybovost. V trénovacích datech bylo pacientů s takovými hodnotami nedostatek, a proto se matematický model nedostatečně optimalizoval.
5 0
‐20,00
‐10,00
‐5 0,00
10
Rozdíl výpoč. změny vs. reálná [kg]
Rozdíl výpoč. změny vs. reálná [kg]
10
10,00
5 0
‐15,00 ‐10,00 ‐5,00 ‐5 0,00
‐10 Skutečná změna hmotnosti [kg]
5,00
10,00
‐10 Skutečná změna hmotnosti [kg]
(a) Trénovací data
(b) Testovací data
2
Rozdíl výpoč. změny vs. reálná [kg]
Rozdíl výpoč. změny vs. reálná [kg]
Obrázek 6.30: Vizualizace výsledků lineárního modelu B.
1 0 ‐15
‐10
‐5
‐1 0
5
10
‐2 Skutečná změna hmotnosti [kg]
30 20 10 0 ‐20
‐10
‐10 0 ‐20
Skutečná změna hmotnosti [kg]
(a) Trénovací data
10
(b) Testovací data
Obrázek 6.31: Vizualizace výsledků nelineárního modelu A.
V grafu 6.31a můžeme pozorovat pouze malé odchylky vypočtených hodnot o skutečné změny hmotnosti. Jelikož během sestavení matematického modelu došlo k „přeučení“ sítě, vidíme, že v grafu 6.31b na testovacích datech dochází k velkým chybám ve výpočtu.
56
2
0 ‐10,00
0
‐15,00 ‐10,00 ‐5,00‐50 0,00
1
‐20,00
50
Rozdíl výpoč. změny vs. reálná [kg]
Rozdíl výpoč. změny vs. reálná [kg]
3
‐1 0,00
10,00
Skutečná změna hmotnosti [kg]
5,00
10,00
‐100 ‐150 ‐200 Skutečná změna hmotnosti [kg]
(a) Trénovací data
(b) Testovací data
Obrázek 6.32: Vizualizace výsledků nelineárního modelu B (Graf testovacích dat má jiné měřítko y‐osy v důsledku extrémní chyby. Proto jsou odchylky zdánlivě malé)
6.3.1.3 Sestavení predikční rovnice Výsledkem nástroje GAME je rovnice. Dle nastavení výpočtu a charakteru dat mohou vznikat libovolně komplikované rovnice. Jelikož cílem této práce s ohledem na nízký počet pacientů není stanovení konkrétní predikční rovnice, ale postupu jak predikční rovnici získat, demonstrujeme postup na třech různě složitých polynomiálních matematických modelech. •
Jednoduchý model:
y=0,5 •
Středně složitý model:
y=3,201* (5,295* (‐1,304* (GMT) + 1,861* (GMT)^2 + 0,572) * (‐0,246* (beta_OH_1)^2 + 0,504)^3 + 0,185) * (0,515* (Cholesterol) + ‐0,538* (Cholesterol)^3 + 0,343)^2 + 0,118 •
Složitý model y=‐6,509* (0,412* (beta_OH_3)^3 + ‐0,744* (beta_OH_3) + 0,582)^2* (beta_OH_2) * (beta_OH_3) + 0,892* (‐19,391* (1,467* (LDL_chol_)^2* (BMI)^4 + ‐1,898* (LDL_chol_)^5* (BMI)^4 + 0,043* (LDL_chol_)^2* (BMI) + 0,472) * (‐ 0,231* (VO2_max_kg) + 0,607)^3* (0,412* (beta_OH_3)^3 + ‐0,744* (beta_OH_3) + 0,582)^3 + 9,121* (1,467* (LDL_chol_)^2* (BMI)^4 + ‐1,898* (LDL_chol_)^5* (BMI)^4 + 0,043* (LDL_chol_)^2* (BMI) + 0,472) * (‐0,231* (VO2_max_kg) + 0,607)^2* (0,412* (beta_OH_3)^3 + ‐0,744* (beta_OH_3) + 0,582) + 0,085) + 0,242* (beta_OH_2)^2* (beta_OH_3)^2 + 0,081
Ve všech případech byl pro získání výsledné rovnice použit nástroj GAME. Pouze jsme zvolili odlišné parametry pro výpočet. Na obrázku 6.33 můžeme vidět analýzu struktury středně složitého vzorce v nástroji GAME. 57
Obrázek 6.33: Analýza struktury rovnice v GAME.
6.3.1.4 Shrnutí Výsledná predikční rovnice redukce hmotnosti na základě bazálních hodnot nám umožňuje stanovit předpokládanou změnu hmotnosti pacienta po třech měsících standardní léčby v rekondičním centru dříve, než léčba nastane. Tato možnost je velmi zajímavá a výsledky této kapitoly potvrzují možnost stanovení validní predikční rovnice. S ohledem na předcházející kapitoly a charakter dat je nutné interpretovat dosažené výsledky s velkou rezervou. Pro stanovení kvalitní predikční rovnice je nutné zásadně rozšířit soubor trénovacích a testovacích dat, s maximálním důrazem na zastoupení všech skupin pacientů v trénovacích datech. 6.3.2 Analýza dle klasifikace do skupin V předchozí kapitole jsme se zabývali stanovením predikční rovnice změny hmotnosti. Jako referenční výstupní hodnotu jsme zvolili absolutní změnu hmotnosti. V této kapitole je naším cílem klasifikovat pacienty do skupin na základě bazálních hodnot. Pro tyto účely jsme jako výstupní hodnotu zvolili označení skupiny v kódování 1 z N. Postup analýzy byl následující: • •
Příprava souborů dat – rozdělení pacientů do skupin (stejně jako v kapitole 6.2). Dva typy souborů dat dle vstupních parametrů viz. výše. Rozdělení souboru dat. Na množinu trénovacích pacientů (70% ‐ 36 pacientů) a množinu testovacích pacientů (30% ‐ 15 pacientů). Vytvoření porovnávací množiny dat. Porovnávací množina obsahuje stejné vstupní parametry jako trénovací a testovací množina, na výstupu jsou skupiny vybrány náhodně s normálním rozdělením. 58
•
Výpočet matematického modelu predikční rovnice na trénovacích datech. Výpočet klasifikační úspěšnosti na trénovacích datech é . Ověření matematického modelu predikční rovnice na testovacích datech. Výpočet klasifikační úspěšnosti na testovacích datech . Test matematického modelu predikční rovnice na porovnávacích datech. Výpočet . klasifikační úspěšnosti na porovnávacích datech Porovnání klasifikačních úspěšností. Platí, že pokud 50%, pak lze rovnici považovat za predikční s procentuální úspěšností korektní klasifikace pacienta .
• • •
Klasifikační úspěšnost KU udává míru správného přiřazení pacienta ke skupině na základě výpočtu v predikční rovnici. Jelikož pracujeme s kódováním 1 z N, GAME vyhodnocuje skupiny tak, že kontroluje normalizovaný výsledek predikční rovnice (hodnoty <0,5, pak pacient do příslušné skupiny mohou nabývat hodnot <0;1>). Když nepatří, jinak patří. 6.3.2.1 Konfigurace GAME Po dlouhodobé optimalizaci nastavení GAME jsme použili pro výpočet tyto konfigurace: •
•
Lineární model o Velikost populace: 40 o Epoch: 100 o Pouze lineární typy jednotek Nelineární model o Velikost populace: 35 o Epoch: 100 o Jednotky: Lineární Polynomiální (CombiNeuron, PolySimpleNeuron, PolySimpleNRNeuron, CombiNeuron). Max stupeň polynomu 20. ExpNeuron, SigmNeuron BPNeuron, PerceptronNeuron
6.3.2.2 Rozbor výsledků Souhrn výsledků je zobrazen v tabulce 6.8. Ve všech případech se porovnáním klasifikační úspěšnosti u testovacích a náhodných porovnávacích dat prokázalo, že nástroj GAME sestavil predikční rovnice s vyšší než 50% klasifikační úspěšností. Model Lineární model A2 Lineární model B2 Nelineární model A2
é
72,5 68,6 71,4
62,5 87,5 56,2
45,1 55,3 45,1
Skup. A Skup. B Skup. C Skup. E Skup. F 88,2 82,1 90,2 92,1 94,1 88,4 78,4 84,1 92,1 94,1 91,4 68,5 85,7 94,2 97,1
59
Nelineární model B2
97,1
37,5
35,2
100,0
94,2
100,0
100,0
97,1
Tabulka 6.8: Přehled chyb jednotlivých výpočetních modelů (A2 model – všechny vstupní parametry, B2 model – redukované vstupní parametry. Skup X – přesnost klasifikace do konkrétní skupiny).
Nelineární model B2 byl „vytrénován“ s nejvyšší přesností. Tento model však vykazuje již známky „přeučení“, resp. GAME síť se během vytváření modelu přeučila. Jedná se o známý stav (viz. [2]), kdy výsledky na trénovacích datech jsou téměř ideální, ovšem při dosazení testovacích dat je již rovnice natolik optimalizována na soubor trénovacích dat, že výsledky testovacích dat vykazují velké rozptyly. Na obrázku 6.34 můžeme pozorovat příčinu nekvalitních výsledků na testovacích datech u nelineárního modelu B2. Model optimalizuje predikční rovnici na základě trénovacích dat. Pokud je matematický model složitý, dochází k „vykrajování“ požadovaných oblastí pokrytí stejně jako na obrázku 6.34a (model se snaží modrou barvou podbarvit maximum modrých čtverců, fialovou fialové…). V případě, že použijeme testovací data, model již zůstává, mění se pouze data pacientů (obrázek 6.34b). Pokud je diference dat pacientů vysoká, může růst klasifikační chyba modelu. Přeučená síť optimalizuje matematický model na trénovacích datech tak přesně, že je pak model na testovacích datech téměř nepoužitelný.
(a) Trénovací data
(b) Testovací data
Obrázek 6.34: Multidimenzionální 2D klasifikace nelineárního modelu B2.
6.3.2.3 Shrnutí Obecně lineární matematické modely vykazovaly lepší klasifikační výsledky než modely nelineární. Tento jev si vysvětluji tak, že s ohledem na velikost souboru dat, rozvrstvení pacientů do skupin a vysoký vstupní vektor dat je efektivnější, pokud model „pokryje“ pacienty ze skupiny B (většina pacientů) i za cenu chyby způsobené nechtěným pokrytím pacientů z jiných skupin. Tohoto požadavku lze jednoduše dosáhnout právě lineárním modelem a zároveň oproti modelu nelineárnímu je nižší riziko „přeučení“. 60
Predikční rovnice vykazují schopnost úspěšně predikovat zařazení pacienta do konkrétní skupiny po 3 měsících léčby na základě bazálních hodnot. Opakované testy však opět ukázaly, že pro stanovení spolehlivé predikční rovnice musíme zajistit větší soubor dat pacientů.
7 Závěr V této diplomové práci byla prováděna statistická a neuronová analýza reálných dat pacientů z rekondičního centra. Za hlavní cíl práce jsme si kladli analýzu signifikantních parametrů ovlivňujících změnu hmotnosti a dalších parametrů, určit vliv parametru BOH na celkovou změnu hmotnosti pacientů a konečně stanovit predikční rovnici hmotnosti pacientů po intenzivní tří měsíční léčbě.
7.1 Analýza signifikantních parametrů Statisticky i metodami výpočetní inteligence se nám podařilo prokázat výskyt signifikantních parametrů ovlivňujících změnu specifických hodnot. Výsledky lze shrnout do následujících bodů: • • •
•
∆BMI – velikost ∆BMI prokazatelně ovlivňují parametry HLP, AST, GMT, ALT, HBA1c, Cholesterol, LDL_chol, Atero_index, Triglyceridy, X_těl_tuku, VO2_max_kg. ∆Kreatinin – velikost ∆Kreatininu prokazatelně ovlivňují parametry Věk, HTN, AST, GMT, ALT, HBA1c, C_peptid, Beta_OH_2, Beta_OH_3, Váha_kg, BMI, X_těl_tuku. ∆betahydroxybutyrátu – velikost změny betahydroxybutyrátu před a ihned po dokončení fyzické zátěže ovlivňují parametry Věk, Urea, Kreatinin, CRP, Váha_kg, Obvod_pasu, BMI, X_těl_tuku, TF_max, VO2_max_kg, W_max. Pohlaví nemá vliv na žádný z analyzovaných výstupních parametrů.
7.2 Vliv betahydroxybutyrátu (BOH) na redukci hmotnosti Provedli jsme podrobnou analýzu hodnot BOH získaných před, ihned po a 1 hodinu po fyzické zátěži. Cílem bylo prokázat, že pacienti se schopností produkovat vyšší hodnoty BOH ihned po ukončení fyzické zátěže mají vyšší předpoklad úspěšné redukce hmotnosti. Tento předpoklad jsme nebyli schopni prokázat. Parametry BOH vykazovaly vysoký rozptyl. S dostupným souborem dat pacientů a po provedení experimentů popsaných v kapitole 6.2 můžeme s určitou dávkou opatrnosti tvrdit, že rozdíl BOH před a ihned po testu není významným parametrem ovlivňujícím absolutní změnu hmotnosti pacienta během léčby. Významnými, nikoliv však nejvýznamnějšími parametry jsou celkový rozdíl BOH (BOH3‐ BOH1) a „hodinový rozdíl BOH (BOH3‐BOH2). Oproti očekávání tyto parametry mají menší vliv na výslednou změnu hmotnosti pacienta, než parametr triglyceridy a atero_index.
7.3 Predikční rovnice hmotnosti Na základě předchozích výsledků jsme pomocí metod výpočetní inteligence sestavili 4 matematické modely pro predikci absolutní změny hmotnosti po 3 měsíční léčbě pacientů na 61
základě bazálních hodnot. Obecně lze tvrdit, že na malém souboru zašuměných dat, která jsme měli k dispozici, dosahovaly lineární modely lepších výsledků než modely nelineární. Důvodem bylo snadné „přeučení“ sítě u nelineárních modelů. Na nekvalitních datech tak tyto modely vykazovaly při testování vyšší chybu. Stanovili jsme obecný postup pro výpočet optimálního matematického modelu v nástroji GAME pro predikční rovnici hmotnosti tak, abychom mohli rovnici opakovaně sestavovat s aktualizovanými soubory dat.
7.4 Doporučení Jelikož projekt rekondičního centra ještě v době dopsání této diplomové práce nebyl ukončen a počet pacientů s kompletně zpracovanými daty z obou testů tak ještě není konečný, doporučuji: o Maximalizovat soubor dat pacientů o V rámci možnosti vybírat do projektu takové pacienty, aby mohl být výsledný soubor dat optimálně rozdělen do podobně zastoupených skupin dle BMI. Zvýšit zastoupení mužů. o Opakovat jednotlivé kroky experimentální části a prokázat validitu výsledků. o Přepočítat predikční rovnici hmotnosti na základě popsané konfigurace v GAME a větší trénovací a testovací množiny dat.
62
Seznam použité literatury [1]
Doc. Ing. Miroslav Šnorek, Csc.: Neuronové sítě a neuropočítače, ČVUT Praha 2002
[2] Ing. P. Kordík, Ph.D.: Fully Automated Knowledge Extraction using Group of AdaptiveModels Evolution. PhD thesis, CTU Prague 2006 [3]
Jiří Anděl: Statistické metody, Matfyzpress Praha 2003
[4]
Josef Tošenovský, Martin Dudek: Základy statistického zpracování, TU Praha 2004
[5] Miroslav Pokorný, Radomír Kozub: Statistické zpracování měřených dat I., TU Ostrava 1998 [6]
Vladimír Rogalewitz: Pravděpodobnost a statistika pro inženýry, ČVUT Praha, 2000
[7]
Christhoper Westphal, Teresa Blaxton: Data Mining Solutions, ISBN 0‐471‐25384‐7
[8] Ian H. Witten, Eibe Frank: Data Mining – Practical Machine Learning Tools and Techniques, ISBN 0‐12‐088407‐0 [9] Fabrice Guillet, Howard J. Hamilton: Quality Measures in Data Mining, ISBN 1860‐ 949X [10] Doc. Ing. Jana Tučková, Csc.: Úvod do teorie a aplikací umělých neuronových sítí, ČVUT Praha 2003 [11] HEBÁK,P., HUSTOPECKÝ J.: Vícerozměrné statistické metody s aplikacemi, SNTL/ALFA, Praha 1987. [12]
Šíma J., Neruda R.: Teoretické otázky neuronových sítí. Matfyzpress, Praha, 1996.
[13] Mařík V., Štěpánková O., Lažanský J. a kol.: Umělá inteligence 4. Academia, Praha, 2003. [14] Laboratoře HUT Helsinky: SOM Dokumentace, http://www.cis.hut.fi/projects/somtoolbox/documentation/
63
[15] M. Janošík. Algoritmy pro optimalizaci sítě GAME. ČVUT Praha, 2006 [16]
William J. Palm III.: Introduction to MATLAB 7 for engineers, Boston McGraw‐Hill, 2005
[17] Karel Zaplatílek a Bohuslav Doňar.: MATLAB pro začátečníky 1. vyd., Praha BEN ‐ technická literatura, 2003 [18] Kordík P.: Selecting Subset of Relevant Variables by Means of Niching Genetic Algorithm. CTU Prague 2004. [19] Weka: Data mining software in java. Available on WWW: http://www.cs.waikato.ac.nz/ml/weka/index home.html, 8 2006. [20] Goldberg, D. E.: Genetic algorithms in search, optimization, and machine learning. Reading, MA: Addison‐Wesley. 1989
64
P Přílohy
Přílo oha A Statistické testo ování kompletního souboru vstupních a výstu upních dat. Snahou bylo ověřit si,, ů jsou po třech měsícícch dostatečně rozdílná. Předpoklaad se bohužel T testem m že daata pacientů nepo otvrdil. 4
Test střední T ích hodnot vstupních aa výstupních hodnot p pacientů
Hodnota statistiky T [‐]
3,5 3
2,5 2
Kvantil na hl. v. 5% n
1,5 1
Kvantil n na hl. v. 20%
0
věk DM IGT HTN HLP pohlaví urea kreatinin AST GMT ALT glykémie HBA1c C_peptid IRI Cholest… HDL ch HDL_ch… LDL_ch… Ateroin… Triglyce… CRP beta_O… beta_O… beta_O… váha__… obvod_… b d BMI X__těl_… TF_max VO2 m VO2_m… W_max
0,5
3
Test rozzptylů vstup pních a výstupních hodnot pacien ntů
Hodnota statistiky F [‐]
2,5 2
1,5
Kvantil na hl. v. 5% n Kvantil n na hl. v. 20%
1
0
věk DM IGT HTN HLP pohlaví urea kreatinin AST GMT ALT glykémie HBA1c C_peptid IRI Cholest… HDL ch HDL_ch… LDL_ch… Ateroin… Triglyce… CRP beta_O… beta_O… beta_O… váha__… obvod_… b d BMI X__těl_… TF_max VO2 m VO2_m… W_max
0,5
i
Z grafů je vidět, že pouze u několika parametrů lze signifikantně na hladině významnosti 0,05 zamítnout nulovou hypotézu (5.2), že střední hodnoty výběrů se rovnají. Tento fakt může být částečně způsoben vlivem vysokého rozptylu hodnot některých parametrů (viz graf F testu). Závěrem však lze říci, že k signifikantním změnám parametrů u pacientů po 3 měsících nedochází.
Příloha B
1,00
1,00
0,25
0,38
Hodnota BOH3_2
Hodnota BOH3_1
Výsledky statistického testu ANOVA skupin rozdělených dle absolutní změny hmotnosti pacientů.
-0,50
-1,25
-2,00
-0,25
-0,88
-1,50 A
B
C
E
F
A
Hmotnostní skupina
Hodnota VO2_max_kg
Hodnota X_tel_tuku
E
F
20,00
-1,50
-5,00
-8,50
-12,00
12,50
5,00
-2,50
-10,00 A
B
C
E
F
A
Hmotnostní skupina
B
C
E
F
Hmotnostní skupina
0,40
1,00
0,23
0,75
Hodnota HLP
Hodnota BOH2_1
C
Hmotnostní skupina
2,00
0,05
-0,13
0,50
0,25
-0,30
0,00 A
B
C
E
F
A
Hmotnostní skupina
B
C
E
Hmotnostní skupina
ii
B
F
1,00
0,25
0,50
Hodnota HBA1c
Hodnota GMT
0,60
-0,10
-0,45
0,00
-0,50
-0,80
-1,00 A
B
C
E
F
A
2,00
1,50
1,13
0,75
0,25
-0,63
-1,50 B
C
E
F
-0,75
F
A
B
C
E
F
Hmotnostní skupina
1,00
1,50
0,00
0,63
Hodnota Triglyceridy
Hodnota Atero_index
E
0,00
Hmotnostní skupina
-1,00
-2,00
-3,00
-0,25
-1,13
-2,00 A
B
C
E
F
A
Hmotnostní skupina
B
C
E
Hmotnostní skupina
iii
C
-1,50 A
B
Hmotnostní skupina
Hodnota LDL_chol_
Hodnota Cholesterol
Hmotnostní skupina
F
Příloha C Výsledky korelace jednotlivých parametrů na změnu celkové hmotnosti.
iv
Příloha D
Změna hmotnosti [kg]
Vizualizace výsledků predikční rovnice hmotnosti na základě bazálních hodnot. V grafech lze současně pozorovat křivku vypočteného odhadu změny hmotnosti a skutečně naměřenou hmotnost u každého pacienta. 10,00 5,00 0,00 ‐5,00 ‐10,00 ‐15,00 Vypočtený odhad změny hmotnosti
Skutečná změna hmotnosti
Změna hmotnosti [kg]
(a) Trénovací data
10,00 5,00 0,00 ‐5,00 ‐10,00 ‐15,00 Vypočtený odhad změny hmotnosti
Skutečná změna hmotnosti
(a) Testovací data
Změna hmotnosti [kg]
Graf 5‐15 a‐b: Vizualizace výsledků lineárního modelu A.
10,00 5,00 0,00 ‐5,00 ‐10,00 ‐15,00 Vypočtený odhad změny hmotnosti
Skutečná změna hmotnosti
(b) Trénovací data
v
Změna hmotnosti [kg]
10,00 5,00 0,00 ‐5,00 ‐10,00 ‐15,00 Vypočtený odhad změny hmotnosti
Skutečná změna hmotnosti
(b) Testovací data
Změna hmotnosti [kg]
Graf 5‐15 a‐b: Vizualizace výsledků lineárního modelu B.
10,00 5,00 0,00 ‐5,00 ‐10,00 ‐15,00 Vypočtený odhad změny hmotnosti
Skutečná změna hmotnosti
Změna hmotnosti [kg]
(a) Trénovací data
10,00 5,00 0,00 ‐5,00 ‐10,00 ‐15,00 Vypočtený odhad změny hmotnosti
Skutečná změna hmotnosti
(a) Testovací data Graf 5‐15 a‐b: Vizualizace výsledků nelineárního modelu A.
vi
Změna hmotnosti [kg]
10,00 5,00 0,00 ‐5,00 ‐10,00 ‐15,00
(a) Trénovací data
Změna hmotnosti [kg]
50,00 0,00 ‐50,00 ‐100,00 ‐150,00 ‐200,00
(a) Testovací data (b) Graf 5‐15 a‐b: Vizualizace výsledků nelineárního modelu B.
vii