Mendelova univerzita v Brně Provozně ekonomická fakulta
Analýza dat „sleep“ Semestrální práce do předmětu Informační systémy pro rozhodování
Jan Grmela, EI Brno 2011
Popis zdrojových dat Zdrojová data souboru „sleep.csv“ popisují spánek živočichů a jeho veličiny. Taktéž zde jsou uvedeny základní parametry toho kterého živočicha jako je například hmotnost či délka života. Data jako celek obsahují tyto parametry: – název druhu – hmotnost živočicha – hmotnost mozku – délka spánku s pomalým vlněním (části 3 a 4 non-REM fáze spánku) – délka REM fáze spánku – celková délka spánku – maximální délka života – délka březosti – index dravosti – index klidu při spánku (např. 1 = v noře, zcela v klidu; 5 = v nebezpečném prostředí) – index nebezpečí pro živočicha (1 = nejnižší; 5 = nejvyšší)
Provedené analýzy Nad zdrojovými daty bylo provedeno několik analýz, které umožnily zjistit, zda a případně jakým způsobem na sobě veličiny navzájem závisí. Vzhledem k tomu, že ve většině sloupců jsou data spojitá, bylo možné využít jen analýzy programu SPSS Modeler, které dokáží se spojitými daty pracovat.
1
Náhled realizace analýz v aplikaci
Ilustrace 1: Propojení bloků analýz v Modeleru Při realizaci práce bylo použito analytických bloků zobrazené na Ilustraci 1.
Analýza vztahu délky života k délce spánku
Ilustrace 2: Naximální délka života versus celková délka spánku Toto grafické znázornění zobrazuje poměr délky života (osa X) a délky spánku (osa Y). Z průběhu histogramu je zřejmé, že z prodlužující se délkou života se zkracuje délka spánku. Jisté prokázání této závislosti by však vyžadovalo další analýzy.
2
Analýza závislosti délky života pomocí algoritmu CR&T Délka života byla analyzována i pomocí stromového algoritmu CR&T. Analýzou tímto nástrojem bylo prokázáno, že na délku života má z dostupných hodnot nejvyšší vliv hmotnost těla zvířete (důležitost 0,31), délka non-REM fáze spánku (důležitost 0,17) a hmotnost mozku (0,14).
Ilustrace 3: Závislost délky života na dalších proměnných (CR&T)
Analýza závislosti délky života pomocí neuronové sítě Pro porovnání výsledků s algoritmem CR&T byla využita analýza stejné proměnné neuronovou sítí. Je zajímavé, že výsledky (tedy závislost proměnných) v tomto případě vyšly téměř opačné než v případě CR&T. Tento fakt přičítám tomu, že obě analytické metody mají mnoho možností nastavení. Jejich správným výběrem v souladu se společným cílem by zřejmě bylo možné dosáhnout stejných výsledků a tak potvrdit domněnky o závislosti proměnných.
Ilustrace 4: Závislost délky života na dalších proměnných (CR&T) Analýzou pomocí neuronové sítě byly jako nejdůležitější vybrány proměnné popisující délku březosti (0,25), hmotnost mozku (0,14), celkovou délku spánku (0,14) a index dravosti (0,13).
3
Analýza délky spánku pomocí algoritmu CR&T Délka spánku byla analyzována i stromovým algoritmem CR&T. Byla zde zjištěna závislost zejména na délce non-REM fáze spánku (což je třeba ignorovat neboť celková délka spánku je hodnotou této proměnné částečně tvořena), indexu klidu při spánku (0,16), délce březosti (0,14) a hmotnosti těla (0,13).
Ilustrace 5: Závislost délky spánku na ostatních proměnných (CR&T) Z této analýzy tedy plyne, že živočich, který má při spánku větší klid má sklon spát déle.
4
Analýza příbuznosti druhů metodou K-nearest neighbor Pro zjistění, zda se zde uplatní vztahy příbuznosti mezi druhy v závislosti na dostupných proměnných byla použita analýza KNN, která toto ve velkém počtu případů prokázala. Jeden takový příklad je zobrazen na Ilustraci 6, kde je graficky ukázána příbuznost ovce (54), koně (29), kozy (22) a krávy (12). Tato příbuznost je zobrazena na základě podobné délky non-REM fáze spánku, celkové doby spánku, maximální délky života a doby březosti. Index dravosti je u uvedených druhů stejný.
Ilustrace 6: 3D projekce příbuznosti mezi druhy
Ilustrace 7: Hodnoty popisující příbuznost mezi druhy
5
Závěr Provedenými analýzami bylo zjištěno několik závislostí. Dvě provedené analýzy maximální délky života si však odporují a tak by nebylo odpovědné jejich výsledky užít dokud nebude zjištěna příčina této neshody. Jako jasná se zde projevila závislost délky života na délce spánku – déle žijící živočich spí kratší dobu. Dalším zjištěným závěrem je skutečnost, že živočich, který není při spánku vystaven takovému rozruchu (má tedy klid), spí taktéž déle. Dále bylo zjištěna možnost úspěšného využití procesu KNN pro zjištění příbuznosti mezi druhy na základě vstupních proměnných. Ty jsou tedy zřejmě dostatečné pro provedení takové analýzy. Na základě zjištěných skutečností zde vidím jasnou možnost rozšíření na další analýzy, pro které by však bylo nutné buď provést zhodnocení funkce dříve použitých algoritmů nebo určitým způsobem (například rozřazením do tříd) připravit data pro další výpočty, tentokrát už algoritmy, které pracují s daty diskrétními. Další analýzy by bylo možné provést například po rozřazení druhů na jednotlivé čeledi, přičemž by se provedlo srovnání z agregátních dat napříč čeleděmi.
6