Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Vyšší odborná škola informačních služeb v Praze
Lukáš Kleňha
Regresní analýza pacientovy progrese po první hospitalizaci s CHOPN
2011
Prohlášení Prohlašuji, že jsem bakalářskou práci na téma „Regresní analýza pacientovy progrese po první hospitalizaci s CHOPN“ zpracoval samostatně a použil pouze zdrojů, které cituji a uvádím v seznamu použité literatury.
V Praze dne 15. srpna 2011 Lukáš Kleňha
-3-
Anotace Pomocí regresní metody vypočítávám vyhlídky pacienta po první hospitalizaci s nemocí CHOPN. Získané rovnice popisují stav ve spádové oblasti Nemocnice Tábor a.s., kde byla data shromážděna. Tyto rovnice popisují závislosti dvou měřených faktorů a popisují odhadnutelné vyhlídky pacienta s touto nemocí.
Anotation Using regression analysis I am predicting patience’s life after first hospitalization for COPD. Receiving questions are describing status in region of Tábor’s Hospital, where the data had been collected. These equations are describing of two measured parameters and these equations are describing predictable views of patient with this disease.
-4-
OBSAH Úvod ..................................................................................................................................6 1
Teoretický úvod .........................................................................................................7 1.1
1.1.1
Definice CHOPN a patologie ....................................................................8
1.1.2
CHOPN stádia a léčba ...............................................................................9
1.2
Regresní analýza..............................................................................................10
1.2.1
Úvod do statistiky....................................................................................10
1.2.2
Analýza dvou proměnných ...................................................................... 11
1.2.3
Parametry regresní funkce ....................................................................... 11
1.2.4
Nejčastější typy regresních funkcí ..........................................................13
1.2.5
Používané regresní funkce.......................................................................13
1.2.6
Regresní funkce a její kvalita ..................................................................14
1.3 2
CHOPN a její léčba ...........................................................................................7
Využitý software a postup výpočtu regresní funkce ........................................15
Praktická část ...........................................................................................................19 2.1
Sběr dat ............................................................................................................19
2.1.1
Základní soubor dat .................................................................................21
2.1.2
Můj sběr dat .............................................................................................28
2.2
Postup výpočtu regresní funkce k BMI ...........................................................29
2.2.1
Počet hospitalizací ...................................................................................30
2.2.2
Délka hospitalizací ..................................................................................33
2.2.3
Celková doba onemocnění ......................................................................38
2.2.4
Celkové shrnutí rovnic s BMI .................................................................41
2.3
Postup výpočtu regresní funkce k balíčkorokům ............................................42
2.3.1
Počet hospitalizací ...................................................................................42
2.3.2
Délka hospitalizací ..................................................................................45
2.3.3
Celková doba dožití pacienta ..................................................................48
2.3.4
Shrnutí výsledných rovnic s počtem balíčkoroků ...................................51
3
Závěr ........................................................................................................................52
4
Seznam použitých zdrojů ........................................................................................53
5
Seznam použitých tabulek .......................................................................................55
6
Seznam použitých grafů ..........................................................................................56
7
Seznam použitých obrázků ......................................................................................57 -5-
Úvod Cílem mé bakalářské práce na téma „Regresní analýza pacientovy progrese po první hospitalizaci s CHOPN“ je popsat pomocí regresní analýzy nemoc, která se jmenuje CHOPN. Data, která používám, byla získána v Nemocnici Tábor, a.s na Plicním oddělení analýzou dokumentace. Pomocí regresní analýzy vytvářím rovnice, které modelují vztah mezi jasně měřitelnými faktory. Cíleně se zaměřuji na anamnestické faktory ovlivňující výskyt choroby u pacienta. Sleduji rizikové faktory (kouření, obezita a další) které se vyskytují u pacientů s CHOPN. Díky tomuto modelu předvádím, kterým rizikovým faktorům by se měl člověk vyvarovat, aby v případě tohoto závažného onemocnění, měl co nejdelší spokojený život. Potřebná data jsem získal od Plicního oddělení Nemocnice Tábor a.s., které pracuje na studii porovnávající délku života pacienta s nejtěžším stádiem CHOPN v českém okresním městě a jeho spádové oblasti. Je statisticky prokázáno významné prodloužení délky života pacienta v českých podmínkách vůči zahraničním. V rámci zachování korektnosti studie není uveden přesný typ podávaných léčiv, je známa pouze účinná látka daných léčiv, která jsou předepsána pacientům. Dále je předpokládáno, že pacient plní pokyny doktora a dodržuje doporučené léčebné pokyny a předpisy. předpoklady řeším níže v mé bakalářské práci.
-6-
Další
1 Teoretický úvod V teoretickém úvodu vysvětluji termíny nutné pro pochopení mé bakalářské práce. Tento úvod je rozdělen do dvou větších celků, které jsou významově spojené, a menšího celku. V menším celku vysvětluji použitý software a postup výpočtu regresních funkcí. V prvním celku vymezím lékařské termíny a podmínky související s chorobou CHOPN. Dále vysvětlím základní termíny spojené s léčbou nutné pro pochopení problému, zde se snažím o jednoduché vysvětlení, aby byl text pochopitelný pro čtenáře neznalého medicínské terminologie. V druhé části vysvětlím základní pojmy z regresní analýzy, které se vztahují k danému problému a je nutné, je použít pro řešení problému. V této části text spíše vysvětluje matematické termíny nutné pro pochopení tématu a použité statistické metody. Tato část se bude týkat vyhodnocení získaný dat a vytvořených rovnic. V posledním menším celku stručně zdůvodňuji použití mnou vybraného softwaru, který používám při řešení bakalářské práce. S tímto vysvětlení popisuji také samotný postup výpočtu regresní funkce.
1.1 CHOPN a její léčba V této části se zaměřím na vysvětlení medicínské části, vysvětlím základní příznaky nemoci a základní způsoby její léčby.
V této části bakalářské práce vycházím
z publikace Světová strategie diagnostiky, léčby a prevence CHOPN, tato publikace je nejnovějším překladem Global strategy for diagnosis, managment and prevention of chronic obstructive pulmonary disease 2006, kterou vydalo GOLD – Global Initiative for
Chronic
Obstructive
Lung
Disease,
tato
publikace
je
dostupná
na
www.goldcopd.com , česká verze je na www.copn.cz. Tato publikace dokonale vysvětluje chorobu a její vznik. CHOPN je zkratka termínu chronická obstrukční plicní nemoc, nebo také [1] COPD - Chronic Obstructive Pulmonary Disease , tento zdroj vysvětluje název nemoci. Choroba patří mezi nejzávažnější nemoci, je 4. nejčastější příčina úmrtí lidí na světě podle WHO [2], kdy umírá ročně 3,2 milionu lidí, což je 5,1 % všech úmrtí. Podle WHO se počet pacientů trpící touto chorobou neustále zvyšuje a během 10 až 20 let se očekává, že se dostane na 3. místo mezi příčinami úmrtí na světě. Tyto výsledky řadí CHOPN mezi nejzávažnější choroby, kterými může člověk trpět. Tabulka uvedená níže ukazuje úmrtnost lidí na světě, tato tabulka je převzata a graficky upravena z webu WHO [2]. CHOPN se řadí mezi nejzávažnější nemoci, jako jsou například nemoci srdce, mozku. -7-
Deaths in millions 7.20 5.71 4.18 3.2 2.16
World Coronary heart disease Stroke and other cerebrovascular diseases Lower respiratory infections Chronic obstructive pulmonary disease Diarrhoeal diseases Tabulka 1 Nejzávažnější choroby podle WHO
% of deaths 12.2 9.7 7.1 5.1 3.7
CHOPN sdružuje dříve známé nemoci jako je zánět průdušek a rozedma plic, které byly dříve popisovány jako rozdílné nemoci, v dnešní době se lékařská terminologie sjednotila. V této části bakalářské práce vycházím z publikace Světová strategie diagnostiky, léčby a prevence CHOPN.
1.1.1 Definice CHOPN a patologie Definicí nemoci můžeme najít v literatuře několik, vybírám jednoduší a srozumitelnou definici, která stačí pro základní pochopení nemoci jako celku. CHOPN je léčbou ovlivnitelný chorobný stav charakterizovaný chronickým neinfekčním zánětem průdušky a průdušnice vedoucí k chronickému omezení průtoku vzduchu v dolních dýchacích cestách, které není plně reverzibilní po adekvátní léčbě. K vysvětlení pojmů, které mohou být čtenářem nejednoznačně chápány, používám lékařského slovníku, ten je online. Následující termíny volně vysvětluji podle [3]. chronický – vleklý, chronická onemocnění probíhají méně prudce než akutní, jejich příznaky jsou přítomné trvalé, někdy může nastat trvalé vymizení příznaků, jindy může dojít ke zhoršení stavu neinfekční – nepřenosné mezi pacienty Vdechováním škodlivých látek vzniká u vnímavých jedinců CHOPN. Mezi škodliviny počítáme znečištěný vzduch a hlavně látky vdechované při kouření. Chorobě se dá předcházet, zásadním problémem při jejím vzniku je kouření a znečistěné životní prostředí. Nemoc se projevuje snížením tělesné zdatnosti, kašlem, vykašláváním hlenu a dušností. Tyto symptomy jsou způsobeny poškozením plic, které je způsobeno chronickými záněty v oblasti průdušek, průdušnic a hlavně v periferních oblastech plic. Tyto záněty způsobují změny ve struktuře tkáně plic. Záněty způsobují snížení rychlosti proudění vzduchu v dýchacích cestách. Záněty postihují také plicní sklípky, kde dochází k výměnám plynů, jednak záněty poškozují schopnosti absorpce a také poškozují kapilární cévy vedoucí k plicním sklípkům. Poškození těchto drobných cév může vést až k plicní hypertenzi, kterou se v textu nezabývám, jedná se o další závažnou chorobu. Dušností myslíme nadměrné zadýchávání se pacienta při tělesné zátěži, v konečných -8-
stádiích choroby i v klidu.
1.1.2 CHOPN stádia a léčba Průběh nemoci je u každého člověka rozdílný, ale obecně můžeme předpokládat, že probíhá ve čtyřech fázích. Každý pacient nemusí projít všemi stupni, může dojít k přeskočení některých stádií. Jednotlivá stádia jsou vysvětlena v tabulce, která je přepsána z [4], tyto parametry jsou zvoleny na základě spirometrického (spirometrie – metoda určená k vyšetření dechových funkcí plic) vyšetření pacienta. Hodnota FEV1 uvádí usilovný výdech za 1 s, FVC je usilovná vitální kapacita. Chronické respirační selhání znamená, že parciální tlak kyslíku v tepně je méně než 8,0 kPa při dýchání vzduchu za tlaku při hladině moře. Stádium I:
Lehké
Stádium II:
Středně těžké
Stádium III:
Těžké
FEV1 /FVC < 0,70 FEV1 ≥ 80% n.h. FEV1 /FVC < 0,70 50% ≤ FEV1 < 80% n.h. FEV1 /FVC < 0,70 30% ≤ FEV1 < 50% n.h. FEV1 /FVC < 0,70
Stádium IV:
Velmi těžké
FEV < 30% n.h., nebo FEV1 < 50% n.h. + chronické respirační selhání
Tabulka 2 Typy tíže CHOPN
V mé bakalářské práci řeším stavy pacientů ve Stádiu II, III a IV, kdy život pacientů je již velmi nepohodlný a dokonce nemoc výrazně omezuje pacienty v jejich normálním životě, například nejsou schopni vykonávat svoje povolání, nejsou schopni žádné náročnější fyzické aktivity. V tomto stádium nemoci je nutná hospitalizace pacienta na lůžkovém oddělení v nemocnici, hospitalizace nastává obvykle i vícekrát do roka (hospitalizace – stav kdy je nutné, aby pacient ležel v nemocnici pod odborným lékařským dohledem). Tato choroba postihuje stále větší množství populace, kouří neustále velké množství lidí. Podle [5] kouří v ČR více než 30 procent mužů a více než 20 procent žen. Jedná se o celospolečensky velmi závažné onemocnění, protože léčba především vyšších stadií je nesmírně drahá a pacienty zároveň invalidizuje, takže nejsou schopni výdělečné činnosti.
-9-
1.2 Regresní analýza Cílem regresní analýzy je určení vztahů mezi statistickými znaky. Statistické závislosti vychází ze statistických údajů. Statistický soubor o n pozorováních se získává obvykle několika způsoby pozorování. Pozorujeme statistické jednotky za pevně vymezených podmínek prostorových a časových. Údaje se získávají pozorováním jednotek v časových intervalech nebo okamžicích. Díky těmto n-násobným pozorováním určitého děje získáme statistický soubor. Cílem regresní analýzy je tedy vytvoření idealizované matematické funkce, která popisuje vztahy mezi jednotlivými statistickými znaky. Tato idealizovaná funkce se nazývá regresní funkcí. Přesně tedy [6] „Cílem regresní analýzy je co nejlepší přiblížení empirické (vypočítané) regresní funkce k hypotetické regresní funkci.“ Tedy ze souboru vybraných dat vytváříme model, který vytváří průběh hodnot v závislosti na měření. Co je tedy přínosem regresní analýzy? Regresní funkce nám umožní odhadnout průměrné hodnoty proměnné. Při odhadu používáme hodnoty z intervalu měření – tedy interpolace. Hodnoty mimo interval měření se používají k extrapolačnímu odhadu, tyto extrapolační odhady jsou nepřesné.
1.2.1 Úvod do statistiky Pro potřeby mé práce uvádím přehled základních statistických termínů. Tyto termíny jsou základní a pro jejich lepší pochopení je vhodné zalistovat v knize Statistika pro ekonomy od prof. Richarda Hindlse [6]. Z té knihy jsem čerpal v následujících částech své práce. Základním pojmem je statistický soubor. Statistický soubor je množina jednotek u které zkoumáme statistické znaky. U souboru můžeme zkoumat jeden a více statistických znaků, každý znak má svojí kvalitu. Základní soubor je soubor všech jednotek, na kterých provádíme měření. Pokud provádíme výběr ze základního, získáme výběrový soubor. Výsledkem měření získáváme množství dat, která jsou nepřehledná. Proto musíme jednotlivé naměřené hodnoty roztřídit. Tříděním získáme soubory dat, ze kterých vyniknou specifické znaky, které potřebujeme k dalšímu zpracování. Pro statistické soubory hledáme určité informace, které jednoduše shrnují daný soubor. Střední hodnoty všech statistických souborů se nazývají průměry. Základním průměrem je aritmetický průměr, označíme x . Z hodnot x1,x2, …, xn, kde n je počet pozorování.
- 10 -
n
∑x x=
i
i =1
n
Průměr shrnuje pouze střední hodnoty. Neznáme okolí střední hodnoty, proto hledáme míry variability souboru. Rozptyl je míra, která měří variabilitu hodnot kolem průměru a variabilitu odchylek jednotlivých znaků. Rozptyl značíme s x2 . n
∑ ( x − x) i
s x2 =
2
i =1
n
Variabilita se může spočítat také pomocí směrodatné odchylky, která je odmocninou z rozptylu. n
∑ ( x − x) i
s x = s x2 =
2
i =1
n
Tyto základní pojmy využívám dále ve své práci.
1.2.2 Analýza dvou proměnných Při regresní analýze vycházíme z analýzy proměnných, vždy volíme jednu nezávislou proměnnou a k ní závislou proměnnou. Tedy pro nezávislou proměnnou použijeme xi a pro závislou proměnou yi. Proto nedůležitějším a také nejobtížnějším krokem regresní analýzy je stanovení regresní funkce, tedy vztahu mezi proměnnými v matematické podobě. Základním typem stanovení regresní funkce je grafická metoda, kdy závislost proměnných je zobrazena bodovým grafem. Tento bodový graf vytváříme na standardní Kartézské souřadnici. Každá dvojice pozorování tvoří jeden bod v grafu. Z tohoto grafického výstupu odhadujeme vhodnou podobu regresní funkce – přímku, parabolu, exponencielu.
1.2.3 Parametry regresní funkce Rozlišujeme mezi dvěma základními regresními funkcemi – teoretickou a empirickou regresní funkcí. Teoretická, nebo také hypotetická, regresní funkce je nepozorovatelná a také neměřitelná. Teoretické regresní funkce nedosáhneme žádnými přesnými výpočty. Empirická, také výběrová, regresní funkce je výpočtem z empirických údajů. Je tedy průměrem z naměřených hodnot, který se má co nejvíce přiblížit teoretické regresní funkci. Teoretickou regresní funkci považujeme za model, který vysvětluje průběh proměnné y v závislosti na x. Empirická funkce, nazveme yi, je odhadem modelu – teoretickou regresní funkci nazveme η, který se liší o nepatrný rozdíl – nazveme ε. Pak - 11 -
tedy platí:
yi = ηi + εi Kde i označují i-té hodnoty vysvětlovaných proměnných nebo funkcí. ε má funkci náhodné veličiny, která vyvažuje celý model. Tedy εi nezkresluje hodnoty yi a střední hodnota εi je nulová. Označujeme parametry regresní funkce β0, β1, …, βp , pak
ηi = f ( xi; β 0; β 1;...βp ) A tedy empirickou regresní funkci s odhadnutými parametry b0,b1, …, bp pak je empirická regresní funkce ve tvaru:
Yi = f ( xi; b0, b1,..., bp ) Yi vyjadřuje i-tou hodnotu empirické regresní funkce a je odhadem teoretické hodnoty
η odpovídající xi. Postup tvorby regresní funkce A)
Navržení obecných typů regresních funkcí, které připadají v úvahu
B)
Odhadnutí parametrů teoretické regresní funkce a z ní získáme empirickou regresní funkci
C)
Posouzení odhadu se skutečnými yi vůči Yi
D)
V případě nespokojenosti s C) navrhnout alternativy k regresní funkci
Předpokládám zvolený typ regresní funkce η a odhaduji konkrétní tvar Y. Například typ funkce Y jako lineární funkci, tedy odhaduji pouze typ funkce. Odhaduji pouze parametry regresní funkce a odhaduji nekonečně mnoho funkcí. Účelem analýzy je nalezení, co nejvhodnější funkce z tohoto nekonečna funkcí. Proto vytvářím podmínku o ε rovné nule, tedy: n
n
∑( y − Y ) = ∑e i
i =1
i
i
2
=0
i =1
Kde ei je reziduum – odhad hodnoty náhodné složky ε. Tato podmínka neomezuje dostatečně řešení, funkcí je stále nekonečně mnoho. Proto kladu podmínku na omezení součtu čtverců chyb ε byl minimální. n
n
Q = ∑ ei 2 = ∑ ( yi − ηi ) 2 …min i =1
i =1
Tato metoda se známá jako metoda nejmenších čtverců. - 12 -
1.2.4 Nejčastější typy regresních funkcí Nejčastější funkce jsou lineární z hlediska parametrů, zapisují se ve tvaru:
η = β 0 + β 1 f 1( x ) + ... + β pfp ( x ) Kde β0, β1, …, βp jsou neznámé parametry a f1,f2, …,fp jsou známé parametry funkce nezávislé proměnné x. Při použití metody nejmenších čtverců uvažuji funkci ve tvaru: Nechť bj jsou odhady parametrů βj, pak rovnice je minimální právě tehdy, když všechny první parciální derivace podle βj jsou rovny nule. Tím vzniká soustava rovnic, které se nazývají normálové. V té soustavě nahrazuji βj za odhady bj, kde j = 1,2, …,p n
2∑{ yi − b0 − b1 f 1( xi ) − ... − bpfp( xi )}( −1) = 0 i =1 n
2∑{ yi − b0 − b1 f 1( xi ) − ... − bpfp( xi )}{− f 1( xi )} = 0 i =1
……………………………………………… n
2∑{ yi − b0 − b1 f 1( xi ) − ... − bpfp ( xi )}{− fp( xi )} = 0 i =1
Upravením rovnic získáme tyto tvary rovnic v normálním tvaru. n
n
∑ y = nb i
0
n
n
+ b1∑ f 1( xi ) + b 2 ∑ f 2( xi ) + ... + bp ∑ fp( xi )
i =1 n
i =1
i =1
n
n
i =1 n
n
∑ yifi( xi ) = b0∑ f 1( xi ) + b1∑[ f 1( xi )]2 + b2∑ f 1( xi ) f 2( xi ) +... + bp ∑ f 1( xi ) fp( xi ) i =1
i =1
i =1
i =1
i =1
………………………………………………
n
n i
i =1
i
0
i
i =1
n
n
∑ y fp( x ) = b ∑ fp( x ) + b1∑ f
( xi ) fp( xi ) +... + bp ∑ [ fp( xi )]2
1
i =1
i =1
Tímto řešením je možné získat obecné tvary regresních funkcí.
1.2.5 Používané regresní funkce Pro běžné použití se využívají následující regresní funkce. Tyto funkce dostaneme po dosazení do tvaru:
η = β 0 + β 1 f 1( x ) + ... + β pfp ( x ) Označení jako tvar A Při dosazení za f1(x) = x do tvaru A - 13 -
η = β 0 + β 1x Jedná se o přímkovou regresi. Při dosazení za f1(x) = x , f2(x) = x2 do tvaru A
η = β 0 + β 1x + β 2 x 2 Jedná se o parabolickou regresi. Při obecném dosazení tvaru za f1(x) = x, f2(x) = x2, …, fp(x) = xp
η = β 0 + β 1 x + β 2 x 2 + ... + βpx p Jedná se o polynomickou regresi p-tého stupně. Při dosazení za f1(x) = x-1
η = β0 +
β1 x
Jedná se o hyperbolickou regresi prvního stupně. Při dosazení za f1(x) = logx
η = β 0 + β 1 log x Jedná se o logaritmickou regresi. Všechny dosavadní funkce jsou lineární z hlediska parametrů. Pro potřebu této práce uvádím i funkci, která není lineární v parametrech. Touto funkcí je exponenciální regresní funkce.
η = β 0 β 1 f 1( x ) β 2 f 2 ( x )..... βp fp ( x ) Při dosazení za f1(x) = x
η = β 0 β 1x Jedná se o exponenciální regresi. Výčet těchto funkcí je dostateční pro moji práci. Můžeme nalézt další možné regresní funkce, ale jejich použití není reálné pro případy řešené níže.
1.2.6 Regresní funkce a její kvalita Úkolem regresní analýzy je určení regresní funkce a poté také její kvality. Regresní funkce je kvalitní, když jsou naměřená data v její těsné blízkosti. Naopak jestli jsou naměřená data vzdálená od odhadnuté regresní funkce, pak je její kvalita mizivá. Proto volíme následující ukazatele jako míry kvality funkce: rozptyl empirických hodnot, teoretický rozptyl a reziduální rozptyl. V této kapitole jsem čerpal kromě [6] a také [7]. Rozptyl empirických hodnot y, tedy rozptyl naměřených hodnot: s 2y =
1 ( yi − y ) 2 ∑ n
Teoretický rozptyl Yi, - 14 -
sY2 =
1 (Yi − y ) 2 ∑ n
Reziduální rozptyl s(2y −Y ) =
1 1 ( yi − Yi − y − Y ) 2 = ∑ ( yi − Yi ) 2 ∑ n n
Víme, že
∑ y = ∑Y a proto i
i
y = Y . Díky metodě nejmenších čtverců platí následující
vztah:
s 2y = sY2 + s(2y −Y ) Rozptyl empirických hodnot je součtem rozptylu vyrovnaných hodnot a rozptylu reziduálních hodnot. Kdyby byla přímá funkční závislost mezi proměnnými x, y, nastala by zvláštní situace. Rozptyl empirických hodnot by se rovnal rozptylu vyrovnaných hodnot. Tím můžeme uvažovat s(2y −Y ) = 0 a vzorec získává podobu s 2y = sY2 Kdyby byla úplná nezávislost hodnot pro x, y pak by rozptyl reziduálních hodnot byl nulový a platilo by s 2y = s(2y −Y ) Z těchto dvou tvrzení vyplývá tzv. index determinace. Index determinace je poměr mezi teoretickým rozptylem a epickým rozptylem. 2 I yx =
sY2 s 2y
Při hodnotě 1 půjde o funkční závislost a odhad regresní funkce se maximálně podařil. Čím více se bude index blížit 0, tím více jde o nekvalitní odhad regresní funkce. Pro vybrání vhodných parametrů regresní funkce vybírám upravený index determinace, který také nabývá maximální hodnoty 1: 2 = 1 − (1 − R 2 ) R ADJ
n −1 n− p
2 Kdy n je počet měření, p je počet parametrů, R2 je index determinace. RADJ je vhodný 2 řeší například problém rozhodnutí mezi pro rozhodnutí při volbě počtu parametrů. RADJ 2 přímkou a parabolou. Při rozhodování rozhoduje výše RADJ , čím je vyšší tím je těsnost 2 vyšší. Proto vždy vybírám funkci s nejvyšším RADJ . Tento index je citován z [8]
V této části mé práce jsem vysvětlil nutné termíny z oblasti statistiky pro bakalářskou práci.
1.3 Využitý software a postup výpočtu regresní funkce V této části vysvětlím, jaký software používám a na příkladech vysvětlím postup - 15 -
výpočtu regresní funkce. Pro moji bakalářskou práci potřebuji základní software na provádění výpočtů. Používám Microsoft Excel 2003, z důvodu mé znalosti tohoto softwaru. Tento software jsem používal v rámci mého bakalářského studia během výuky statistiky a dalších předmětů. Pro zpracování tématu je vhodným nástrojem, umožňuje přehlednou tvorbu regresních rovnic. Software vytváří grafy z naměřených hodnot a je vhodným nástrojem pro řešení regresní analýzy. Jako zdroje v této kapitole používám informační portál Microsoftu [8] a základní učebnici v excelu [9]. Ve své práci používám MS Excel ke tvorbě regresní funkcí a indexů determinace. Po spuštění MS Excel na volný list vložíme naměřená data. Jako příklad uvádím tvorbu regresní rovnice, kdy Body mass index (BMI) tvoří nezávislou proměnnou x a závislá proměnná y je počet hospitalizací. Označíme vstupní data a z nabídky vybíráme možnost Vložit a dále Graf. Z nabídnutých grafů vybíráme bodový graf, který je vhodný pro výpočet regresní funkce.
Obrázek 1 Vložení grafu
Na obrázku vidíme modře orámovanou oblast zdroje dat. Sloupec BMI tvoří datový podklad pro osu x. Druhý sloupec je zakrytý nabídkou Vložit s výběrem Graf, v tomto sloupci jsou hodnoty počtu hospitalizací, které jsou podkladem osy y. Po získání bodového grafu, klikneme levým tlačítkem myši na jeden bod, tím se nám - 16 -
označí všechny body. Pak tlačítkem pravé klikneme do grafu. Z následující nabídky vybereme možnost Přidat spojnici trendu. Ukázáno na následujícím obrázku.
Obrázek 2 Přidání spojnice trendu
Po kliknutí na Přidat spojnici trendu se nám objeví nová nabídka. V nabídce Typ vybíráme tvar regresní funkce, podle našeho odhadu. V další nabídce Možnosti zatrhneme Zobrazit rovnici regrese a Zobrazit hodnotu spolehlivosti. Vše potvrdíme tlačítkem Ok. Vzniklý graf zobrazuje spojnici trendu.
Obrázek 3 Zobrazení rovnice regrese a spolehlivosti R
Po potvrzení této nabídky získáme graf, kde je znázorněna křivka. Tato křivka je spojnicí trendu pro daná data. Tato spojnice trendu na tvar funkčního předpisu, který je - 17 -
regresní funkcí. y = 0,0691x + 0,668 R2 = 0,0282
7 6 5 4 3 2 1 0 15,00
20,00
25,00
30,00
35,00
Graf 1 Příklad grafu
Díky Zobrazení regresní rovnice se zobrazuje rovnice ve tvaru y = …, která je regresní rovnicí pro zadaná data. Zatržením Zobrazit hodnotu spolehlivosti získáváme hodnotu spolehlivosti, která je rovná indexu determinace, zde ve tvaru R2=…. Následně musíme z možných rovnic vybrat správnou regresní funkci. U vybraných rovnic si zjistíme index determinace. Z indexu determinace spočítáme podle vzorce úplný index determinace. Funkce s maximálním úplným indexem determinace je naší hledanou funkcí.
- 18 -
2 Praktická část Cílem mé bakalářské práce je popsat pomocí metody regresní analýzy nemoc, která se odborně nazývá CHOPN. Data, která používám, jsem získal v Nemocnici Tábor, a.s na Plicním oddělení. Výsledkem mé práce je výpočet regresních rovnic, které ukazují vliv faktorů na délku onemocnění. Příklad faktoru je kouření vůči době hospitalizace pacienta, výsledná rovnice popisuje vztah mezi kouřením a počtem dní, které strávil pacient v nemocnici. Moje bakalářská práce je typem empirické, která se zabývá statistickou analýzou nemoci CHOPN. Práce zkoumá faktory ovlivňující délku pacientova života. Nesnaží se detailní rozbor dané nemoci, ale ukazuje, které faktory mají významný vliv a které nikoliv.
2.1 Sběr dat Data pro mojí práci jsem získal od Plicního oddělení Nemocnice Tábor. Získaná data byla jednoduše zpracovaná jako soubor v MS Excelu. Tyto data byla získána pro projekt, který se zabývá srovnáním délky života pacienta s CHOPN v českých podmínkách oproti léčbě v zahraničí. Data obsahovala údaje o 85 pacientech a jejich způsobech léčby. Z těchto pacientů je většina živá, někteří zemřeli na jiná onemocnění a někteří na CHOPN a jeho důsledky. Data byla sebrána v období od roku 2004 do roku 2009. Získaná data byla obsáhlejší a řešila jiný problém spojený s délkou života pacienta týkající se rizika úmrtí pacientů. Moje bakalářská práce řeší, jaké faktory ovlivňují délku pacientova života. Rozhodl jsem se data upravit a zjednodušit pro použití v této práci. V této části vysvětlím, jaká data mám k dispozici a jaká používám. Jak jsou data dělena. Základem jsou data demografická – jaké pacienty léčíme, tedy věk, pohlaví. Anamnestická data – jaké důvody mohli vést k pacientově nemoci (anamnéza – předchorobí, lékař se dotazuje pacienta na stavy před chorobou, které mohli vést k onemocnění). Spirometrická vyšetření se týkají hodnot ventilace, tedy měření objemů a rychlosti proudění vzduchu u pacienta. V dalších jsou uvedené hodnoty týkající se krevního tlaku a saturace pacientovy krve kyslíkem. Mortalitní data uvádí údaje o úmrtí pacienta. Přesné vysvětlení měřených dat je v následující tabulce.
- 19 -
Demogratická data Udává číslo pacienta v rámci studie je ve tvaru DD.MM.RRRR Pro muže je zvoleno 1, pro ženy 0 Specifikace AE
číslo pac. datum nar. Pohlaví infekční AE tíže chopn Kuřák stop kuřák nekouří již. Balíčkoroky Nekuřák profesionální inhalace bydliště město bydliště venkov BMI datum smrti úmrtí při 1.hosp. úmrtí při dalších hosp. úmrtí doma příčina smrti ke 31.XII 09 dosud žije Iniciály Výška Váha Tabulka 1 Typů dat
Uvádí stupeň tíže nemoci. Anamnestická data Pro Ano 1, ne 0 Pro Ano 1, ne 0 Počet let kolik pacient nekouří Vysvětluji níže v textu Pro Ano 1, ne 0 Pro Ano 1, ne 0 Pro Ano 1, ne 0 Pro Ano 1, ne 0 Index určující jestli má pacient ideální hmotnost Mortalitní data Datum úmrtí pacienta. Pro Ano 1, ne 0 Pro Ano 1, ne 0 Pro Ano 1, ne 0 Udává přímou příčinu úmrtí Pro Ano 1, ne 0 Iniciály pacinetů Uvedená v metrech Uvedená v kilogramech
Některá data jsou pro moji práci nadbytečná, protože mně zajímají hlavně údaje, které mohly vést ke vzniku choroby. Údaje, které byly sebrány během léčby, nejsou pro mne podstatné. Proto například nepoužívám data obsahující přesné údaje o stavu tlaku kyslíku v pacientově krvi, protože se jedná o údaje sledované během nemoci. Další nadbytečné údaje se většinou týkají progrese choroby a jsou pro práci nevýznamná. Podstatné údaje jako jsou například údaje o kouření pacientů, jak moc pacient kouřil, toto bylo převedeno na balíčkoroky, jestli stále ještě kouří, nebo jestli byl pasivním kuřákem, jestli měl náročné zaměstnání z hlediska vdechování nebezpečných látek. Následují hodnoty, jestli pacient bydlí na venkově, nebo ve městě. Tato data jsem převzal, mojí prací bylo doplnit údaje o jednotlivých hospitalizacích a o tom budu psát níže. Za základní soubor dat, který obsahoval 85 pacientů, jsem si vybral 29 pacientů, kteří prokazatelně zemřeli a splňovali moje požadavky, které jsem si zvolil. Jsou to tato omezení: A)
Předpokládám stejné znalosti lékařů, který léčili pacienta, tedy pacienti byli léčeni stejnými prostředky a bez jakýchkoliv rozdílů. - 20 -
Rozdíly v léčbě pacienta byly způsobeny jen jeho stavem a ne vnějšími podmínkami. Toto omezení bylo důležité z hlediska předpokladu, že každý pacient dostává stejnou úroveň péče. B)
Pacient ukončil léčbu na stejném pracovišti, jako jí začal. Nedocházelo ke změně pracovišť, kde se jeho léčba odehrávala. Tímto omezením jsem omezil pacienty, kteří byli léčeni s CHOPN i mimo pracoviště, ze kterých mám data. Hlavním důvodem tedy bylo, že nemám přístup k datům, která doplňuji v rámci své práce. A dalším nesplnění bodu A.
C)
Dalším omezením je, že pacient zemřel prokazatelně na CHOPN nebo jeho přímé důsledky. Tímto omezením jsem omezil další pacienty, kteří trpěli dalšími závažnými onemocněními a na tato onemocnění zemřeli. Toto omezení omezilo skupinu pacientů nejvíce.
2.1.1 Základní soubor dat Za základní soubor považuji data, která jsem omezil definovanými podmínkami. Získaná data jsem si rozdělil do několika tabulek, zvolené rozdělení je spíše pro přehlednost, i když tvoří logické celky.
Proto data o 29 pacientech uvádím
v následujících tabulkách: A) Tabulka demografie a anamnézy – Tato tabulka uvádí přehled hodnot, které byly získány dotazováním pacienta, a proto je nutné při jejich posuzování brát vždy možnost, že pacient lže. Důvodem je, že se za sebe stydí nebo má jiné důvody neříkat pravdu nebo také pacient může nevědomě lhát. Pacient pouze uvádí svůj odhad reálného stavu věcí a to hlavně počtu balíčkoroků a počtu let kdy nekouří. B) Tabulka spirometrický výsledků a dalších výsledků – Tato tabulka uvádí přesně změřená data, jsou výsledkem měření přístrojů. Tato data jsou pro moji práci nevýznamná. C) Tabulka mortalitní dat – Tato data jsou opět relevantní, jde o statistická data v o úmrtí pacientů. Tato data jsou přesná s minimální chybovostí. Proto shrnutí těchto tří bodů. Jasně plyne, že data C jsou přesná. Ale data A mají jistou nedefinovatelnou nepřesnost. Dále, ale ve své práci považuji data za přesná, protože považuji podle [6] „Svojí podstatou je εi náhodnou veličinou. Je výhodné předpokládat,
že chyba εi nezkresluje hodnoty yi systematickým způsobem, neboli že její střední hodnota je nulová.“ Tedy považuji data A za správná, protože někteří pacienti uvádí nižší údaje a naopak jiní vyšší. Tedy chyba není systémová, ale týká se pouze jedinců. A - 21 -
proto považuji jejich „střední hodnotu lhaní“ za nulovou.
A) Tabulka demografie a anamnézy V této tabulce uvádím základní data o každém pacientovi z pohledu demografie a anamnézy. Z 29 pacientů s CHOPN je 22 mužů a 7 žen, odpovídá 75,8 % zastoupení mužů ve zkoumaném souboru. Myslím si, že část tabulky pohlaví není potřeba dále vysvětlovat. Rok narození, zde neuvádím kvůli přehlednosti, je pro představu jak starý byl pacient při první hospitalizaci. Dále neuvádím, kdy přesně pacienti byli poprvé hospitalizováni. Proto to uvádím slovně. Pacienti 1 – 12 byli poprvé hospitalizováni v roce 2004, pacienti 13 – 22 byli v roce 2005 (tedy 10 pacientů) a pacienti 23 – 29 byli v roce 2006 (tedy 7 pacientů). Dále koho chápeme jako kuřáka. Z hlediska mého vzorku jde o člověka, který dlouhodobě denně kouří větší množství cigaret. Takto to chápou lékaři, kteří sbírali data. A toto byla jejich odpověď na to kdo je kuřák, tedy nejde o subjektivní hodnocení pacientů. Zde není problém se statistickou chybou, protože lidé se většinou nestydí za svůj návyk a přiznají ho lékaři bez problémů. Ve vzorku pacientů bylo 24 kuřáků, to je 82,8 %, a 5 pacientů byli nekuřáci. Z těchto 29 lidí je 22 mužů z nich 2 jsou nekuřáci, tedy 90,9% mužů s CHOPN z našeho souboru kouřilo. Ze 7 žen jsou 3 nekuřačky, jde o 57,1% žen ze vzorku. V dalším sloupečku jsou lidé, kteří přestali dlouhodobě kouřit, tvrdí, že tento návyk nemají, tento údaj je uveden v letech. Ve vzorku máme tedy 11 lidí, kteří přestali kouřit před první hospitalizací s CHOPN. Ale toto číslo je výrazně zkreslené, protože lékaři berou člověka jako nekuřáka až po 6 měsících kdy nekouří, a proto pacienti s číslem 10 a 23 se těžko mohou považovat za nekuřáky, pacient uvedl, že nekouří 0,5 roku. Pacient číslo 23 uvedl, že nekouří 0, 1 roku, toto je časová doba, která byla řečena pacienty. Pacient 23 přestal kouřit de facto před příchodem do nemocnice. Můžu se dohadovat, že tento pacient pocítil závažné zhoršení svého stavu, a proto to nejdříve řešil omezením kouření a až po té vyhledal odbornou pomoc. Podle těchto důvodů považuji tyto dva pacienty stále jako kuřáky. Jejich časový horizont, kdy nekouří je velmi malý, pro lékaře nesplňují dobu kdy už nejsou kuřáky. Ostatní pacienti nekouří již dlouhodobě, někteří déle jak 10 let. A proto z těchto hodnot nevyvozuji žádné závěry, protože pacienti tyto roky uvádějí jako svoje tvrzení. Nevědí přesně, kdy přestali kouřit, ale už „dlouho“ nekouří, konkrétně pacienti 2, 11, 13, 29. Následující odstavec volně cituji z [11].
Balíčkoroky je jednotka sloužící k určení
intenzity kouření pacienta. Jeden balíčkorok znamená, že pacient kouřil po celý rok jeden balíček cigaret denně. V jednom balíčku počítáme 20 cigaret. Tedy jeden - 22 -
balíčkorok se rovná přibližně 7300 cigaretám za rok. Pokud tedy pacient vykouří 40 cigaret denně, tedy 14 600 cigaret za rok, počítáme, že pacient má 2 balíčkoroky. Sloupcem nekuřák jsem se zabýval výše, ale sloupec profese ještě nebyl plně vysvětlen. V tomto sloupci se uvádí, jestli byl/je pacient vystavován, během své pracovní doby, inhalaci (inhalace - vdechování) nežádoucích látek. Tento sloupec je velmi přesný, protože lidé ve své práci nemají důvod lhát. Lékař dokáže na základě svých zkušeností posoudit nebezpečnost pacientova povolání, například rizikem může být práce v zakouřeném prostředí - v restauraci, nebo ve velmi prašném prostředí – obilná sila. Z mého vzorku bylo 7 pacientů vystaveno těmto nebezpečnějším pracovním podmínkám, 2 ze 7 těchto lidí byli nekuřáci (pacienti 27 a 28). V dalších sloupcích máme položky město a venkov, tyto dvě hodnoty se navzájem vylučují, přesná hranice mezi městem a venkovem definována není, ale hodnota bývá odvozena od místa pacientova bydliště, kdy lékař na základě místní znalosti rozhodl, jestli jde o venkov nebo město. Tyto hodnoty jsou přesné, pacient uvádí své bydliště lékaři a nemá důvod ho účelně měnit. V podstatě jde o porovnání, jestli pacient žije v čistém životním prostředí nebo ve znečištěném. Venkov se zde považuje jako lepší než město, ve městě lidé obvykle inhalují více znečištěný vzduch než na venkově. V mém vzorku bylo 6 lidí z venkova a 23 z města, 79,3 % lidí ze vzorku žilo ve horším životním prostředí než zbývajících 20,7%. Posledním sloupcem této tabulky je BMI. Tento index je vysvětlen následující citací: „Body mass index je hodnota vypočtená podle vzorce: váha v kg dělená výškou v
metrech na druhou“.[12] V mé práci se tento BMI se vypočte v době, kdy pacient přišel na první hospitalizaci, jde o jeden z lékařských ukazatelů, který uvádí kategorii pacienta z oblasti výživy. Hodnoty pro normu byli v této studii považovány jako rozmezí mezi čísly 19 a 25. Méně než 19 je podváha, více jak 25 je nadváha. Průměrná hodnota z mého vzorku pacientů je 24,86. Zde rozdělím pacienty do tří skupin podle úrovně BMI, 1. lidé s podváhou, 2. s normálním stavem a 3. skupina lidí s nadváhou.
- 23 -
Demogratická data pohlav kuřá číslo pac. í k
sto p
Anamnestická data nekouř nekuřá profes í balíčkoroky k e
měst o
venko v
1
1
1
0
0
45
0
0
1
0
2
1
1
1
20
45
0
0
1
0
3
1
1
0
0
9
0
0
1
0
4
0
1
0
0
30
0
1
0
1
5
1
0
0
0
0
1
0
1
0
6
1
1
0
0
60
0
0
1
0
7
0
1
0
0
20
0
1
1
0
1
0
0
0
0
1
0
1
0
9
1
1
1
13
50
0
1
1
0
10
1
1
1
0.5
42
0
0
1
0
11
1
1
1
24
70
0
0
1
0
12
1
1
0
0
25
0
0
1
0
13
1
1
1
30
20
0
0
1
0
14
0
1
1
7
35
0
0
1
0
15
1
1
0
0
60
0
0
1
0
16
1
1
0
0
100
0
0
0
1
17
0
0
0
0
0
1
0
0
1
18
1
1
1
8
40
0
1
1
0
19
1
1
0
0
35
0
0
1
0
20
1
1
1
10
80
0
1
1
0
21
0
1
1
3
40
0
0
1
0
22
1
1
0
0
20
0
0
1
0
23
1
1
1
0,1
60
0
0
0
1
24
1
1
0
0
60
0
0
1
0
25
1
1
0
0
12
0
0
1
0
26
1
1
0
0
45
0
0
1
0
27
0
0
0
0
0
1
1
0
1
8
- 24 -
BMI 30,3 9 27,4 4 24,8 4 25,5 1 23,3 7 25,3 9 16,3 6 24,6 9 27,7 8 24,6 9 23,5 7 29,4 1 25,0 6 23,8 3 14,3 6 22,8 6 31,7 9 33,1 4 21,4 7 25,9 9 30,8 0 22,1 5 32,6 5 18,9 3 19,0 3 17,7 3 21,2 2
28
0
0
0
0
0
1
1
0
1
29
1
1
1
34
20
0
0
1
0
5
7
23
6
Součet 22 24 11 Tabulka 2 Demografie a anamnézy
48,4 8 31,7 4 24,8 6
B) Tabulka spirometrický výsledků a dalších výsledků V této tabulce jsou údaje ukazující na stavy pacienta při prvním přijetí, tyto údaje by byly velmi zajímavé pro porovnání modelu, ale nezpracovávám je z důvodů nadměrného množství dat. Rovněž výsledky vyšetření krevních plynů jsou příliš odborným lékařským problémem, proto se jimi ve své práci dále nezabývám.
- 25 -
č.
Spirometrické výsledky (co nejdříve od přijetí) další výsledky FEV1(L) FEV1(%) FVC(L) FVC(%) FEV1/FVC MEF 50(%) PaCO2 PaO2 sat CRP 1 1,37 39,10 3,19 70,00 42,86 14,60 5,8 6,9 86 55 2 1,24 45,80 1,93 52,60 64,14 21,30 4,2 7,7 90 14 3 1,91 57,10 3,41 77,10 56,15 24,80 6,4 6,3 82 15 4 0,90 33,60 1,65 52,30 54,77 10,70 5,4 7,7 90 7 5 1,35 45,90 2,91 71,80 46,33 17,60 93 0 6 0,97 46,70 1,73 61,70 56,00 16,30 5,8 6,2 83 10 7 0,73 34,50 1,24 49,10 58,41 14,50 6,22 6,1 82 5 8 1,22 46,10 1,77 48,00 68,70 23,10 90 0 9 1,10 40,00 1,82 47,90 60,67 14,60 6,8 7,5 90 7 10 0,89 30,30 1,63 41,40 54,38 11,20 5,8 8,5 93 12 11 1,19 48,30 2,32 67,20 51,34 15,60 3,6 11,5 96 24 12 0,96 36,00 1,55 43,90 61,70 15,30 5,6 7,7 90 20 13 0,43 16,70 0,45 12,70 96,87 11,20 6,7 6,2 80 54 14 0,77 48,90 1,45 73,60 53,15 14,30 4,4 7,2 89 3 15 1,62 56,70 2,73 70,70 59,32 26,00 4,8 6,9 88 82 16 1,63 63,30 2,19 62,00 74,37 30,20 5 7 88 63 17 1,00 38,50 1,26 40,70 79,36 21,90 6,3 5,9 81 5 18 1,23 40,80 2,57 64,30 47,99 13,70 8,5 10,8 94 131 19 1,08 36,50 2,48 64,10 43,62 14,00 6 7,2 88 32 20 0,87 33,60 1,16 33,60 74,44 19,80 7,5 7,7 89 6 21 0,84 42,10 2,07 86,70 40,52 11,70 6,5 7,5 90 60 22 0,90 31,60 2,29 62,20 39,28 7,80 91 36 23 1,46 57,90 1,77 50,80 82,30 47,10 5,4 7,4 89 66 24 1,26 52,10 2,40 72,10 52,31 22,80 5,6 7,6 88 42 25 1,05 34,70 2,54 66,10 41,32 14,90 5 8,5 93 16 26 1,49 40,90 2,39 50,60 62,38 20,70 7,9 7,3 87 2 27 0,93 60,40 1,28 66,20 72,65 23,80 8,4 6,3 82 0 28 0,99 48,10 1,71 68,60 58,09 14,30 5,8 7,9 90 2 29 1,51 60,10 2,20 64,00 68,65 32,70 3,9 9 94 8 Tabulka 3 Spirometrických a dalších výsledků
C) Tabulka mortalitní dat V prvním sloupci je uvedeno datum úmrtí pacienta jako datum smrti. Tento sloupec je zpřesňován dalšími sloupci. V úmrtí při 1 je uvedeno zda pacient zemřel během první hospitalizace. V dalším sloupci jsou pacienti, kteří zemřeli během následujících hospitalizací. Ve sloupci doma jsou pacienti, kteří zemřeli v domácím léčení. Ve sloupci příčina smrti je uvedena příčina smrti, tyto pacienti zemřeli na CHOPN nebo na důslednou komplikaci této nemoci. Sloupce výška a váha uvádějí hodnoty naměřené, při první hospitalizaci pacienta.
- 26 -
Hb 153 81 163 138 137 150 144 140 142 128 84 146 115 127 119 149 145 165 125 164 166 148 125 145 143 141 145 153 138
Mortalitní data datum smrti úmrtí při 1 další hosp. doma příčina smrti výška váha 17.10.2008 0 1 0 0 1,85 104,00 1.7.2005 0 0 1 0 1,76 85,00 1.9.2009 0 1 0 0 1,85 85,00 31.10.2009 0 1 0 0 1,68 72,00 25.4.2006 0 1 0 0 1,85 80,00 3.6.2006 0 0 0 0 1,60 65,00 5.4.2007 0 1 0 0 1,64 44,00 1.11.2008 0 0 1 0 1,80 80,00 4.2.2005 0 0 0 0 1,80 90,00 6.4.2005 0 0 0 0 1,80 80,00 30.12.2004 0 1 0 0 1,76 73,00 23.1.2007 0 0 1 0 1,71 86,00 24.10.2006 0 1 0 0 1,73 75,00 17.12.2009 0 1 0 0 1,60 61,00 1.4.2009 0 0 1 0 1,79 46,00 15.9.2007 0 1 0 0 1,75 70,00 7.11.2005 0 1 0 0 1,80 103,00 8.2.2007 0 1 0 0 1,78 105,00 8.5.2007 0 0 0 0 1,74 65,00 5.2.2008 0 1 0 0 1,71 76,00 12.2.2009 0 1 0 0 1,55 74,00 5.1.2005 1 0 0 0 1,70 64,00 9.6.2006 1 0 0 0 1,75 100,00 29.12.2007 0 0 1 0 1,72 56,00 9.8.2008 0 1 0 0 1,70 55,00 21.12.2007 0 0 1 0 1,87 62,00 13.6.2008 0 1 0 0 1,61 55,00 7.12.2007 0 1 0 0 1,65 132,00 13.4.2008 0 1 0 0 1,73 95,00 Tabulka 4 Mortalitních dat
V této části mé bakalářské práce jsem začal pracovat s daty. Pro možnost posuzování těchto dat zavádím předpoklady. Je zřejmé, že nemocnice přijímá pacienta 24 hodin denně. Pacient je tedy hospitalizován kdykoliv přijde do nemocnice. V případě hospitalizace je uložen a je mu poskytnuta stejná péče, jako je poskytnuta dalším pacientů. Podmínky v čase se v nemocnici nemění, pacient má dnes dostupnou stejnou úroveň péče jakou měl před rokem, lékaři, kteří se o něj starají, jsou na stejné úrovni, jsou odborníci na dané téma a nejsou rozdíly v léčbě, kterou pacientovi podávají. Pro hospitalizační data nástupu pacienta na oddělení neuvažuji časové rozdíly během dne. Považuji nástup pacienta do nemocnice v čase 00:00, tedy o půlnoci, i když pacient nastoupil třeba v 15:00. I když byl ten den pacient hospitalizován pouze 9 hodin, počítám tyto hodiny jako celý den, prostě v rámci mé práce jednotlivé hodiny zanedbávám. Den kdy pacienti odchází domů z nemocnice, se pro statistické účely sčítají se dnem příjmu. Takže fakticky pacient, který strávil v nemocni 4 dny, má - 27 -
statisticky 3 dny hospitalizace. 1. den příjmu a 2 dny hospitalizace a 4. den propuštění. Tedy den kdy pacient strávil v nemocnici v rámci léčby s CHOPN jen minutu je zaznamenán. Dny, které pacient strávil v nemocnici, v rámci jiné léčby nepovažuji za zařaditelné. Příkladem je léčba zánětu slepého střeva, toto onemocnění nemá souvislost s CHOPN a proto tyto dny neuvažuji ve své práci. Mezidobím, jsem si nazval dny mezi jednotlivými hospitalizacemi. Tyto dny jsou celé dny, které pacient strávil jako zdraví člověk.
2.1.2 Můj sběr dat V této části vysvětlím, jaká jsem sbíral. Pacient ví anebo neví, že je nemocný s CHOPN. Ve fázi kdy se mu špatně dýchá, jde do nemocnice, kde je poprvé hospitalizován. Zde začíná moje práce při sběru. Zpracoval jsem data pacientů a sepsal, kdy jsou pacienti v nemocnici a kdy v domácím léčení. Takto jsem postupoval u všech hospitalizací s CHOPN. Ukončení záznamu proběhlo až při úmrtí pacienta. Mnou získaná data jsem zaznamenal do excelových tabulek. Uvádím na příkladu prvních 5 pacientů v následující tabulce, kdy N je datum nástupu pacienta do nemocnice, K je konec pobytu v nemocnici: 2004 2005 N K N K 1 20.09. 24.09. 2 07.09. 9.9. 3 18.06. 23.6. 29.4. 5.5. 07.07. 23.7.
2006 N K 30.06. 12.7.
2007 2008 N K N K 12.11. 22.11. 07.04. 17.4.
17.05. 26.5. 13.06. 26.6. 16.08. 24.8.
26.01. 20.2
09.06. 25. 6. 16.10. 2.11 12.12.
16.6. 27.6. 17.10. 4.11. 23.12.
N
2009 K
16.02. 04.03. 02.06. 27.07. 06.08. 24.08.
26.2. 12.3 10.6. 30.7. 19.8. 1.9.
4 23.03. 5.4.
23.10. 6.11. 16.01. 29.1. 22.11. 15.12. 19.02. 2.3. 27.03. 23.4. 27.07. 15.8. 19.08. 5.9. 24.09. 16.10. 09.11. 27.11. 5 29.02. 8.3. 11.04. 25.4. Tabulka 5 Příklad sebraných dat o hospitalizaci
Po sepsání všech pacientů do tabulky jsem spočítal jednotlivé výsledné doby trvání hospitalizací a mezidobí. Tyto data jsou nejpodstatnější, protože z nich vytvářím regresní analýzu. Počty hospitalizací a jejich trvání jsou ekonomicky zajímavá data pro zdravotní pojišťovny. Protože léčba v nemocnici je mnohem nákladnější než v domácí léčbě. Sloupec Délka léčby je zajímavý pro porovnání, protože jde o absolutní počet - 28 -
dní, kterých se pacient dožil od první hospitalizace. Tabulka s trváním jednotlivých dob léčeb všech 29 pacientů: Počet H Trvání H Počet M Trvání M Délka léčby 1 4 39 3 1264 1303 2 1 3 1 294 297 3 17 159 16 1740 1899 4 10 187 10 1861 2048 5 2 24 1 762 786 6 1 8 1 856 864 7 11 410 10 199 609 8 1 10 1 1683 1693 9 2 15 2 202 217 10 1 20 1 267 287 11 3 39 3 938 977 12 6 65 6 1021 1086 13 2 22 2 620 642 14 3 23 2 1428 1451 15 2 32 2 1411 1443 16 3 13 2 945 958 17 1 1 1 209 223 18 2 8 1 696 704 19 3 74 3 505 579 20 4 33 3 794 827 21 21 573 20 776 1349 22 1 4 0 0 4 23 1 11 0 0 11 24 2 49 2 658 707 25 8 99 8 1027 1126 26 1 5 1 567 572 27 3 40 3 944 984 28 1 12 1 429 441 29 3 53 3 563 616 Tabulka 6 Vstupních dat
Tato tabulka je nejdůležitější pro moji práci, vychází z ní mé veškeré výsledky. Z této tabulky vybírám hodnoty pro tvorbu závislých proměnných.
2.2 Postup výpočtu regresní funkce k BMI Jedním z posuzovaných faktorů jsem zvolil BMI – Body Mass index. Vysvětlení pojmu BMI je výše v textu. BMI budu považovat jako nezávislou proměnnou k počtu hospitalizací, délce hospitalizací a celkové době trvání onemocnění. Obecným předpokladem uváděním ve [4] je vliv BMI na CHOPN. Hodnoty mimo průměr jsou považovány za komplikace ztěžující stav. Tedy moje očekávaní jsou, že pacienti v oblasti průměrných hodnot by měli dosahovat optimálních hodnot. Tedy pacienti s průměrnou hodnotou budou mít nejméně hospitalizací. Budou mít nejméně dní v nemocnici a jejich doba onemocnění je nejdelší. - 29 -
Z naměřených hodnot BMI u pacientů vyplynulo, že aritmetický průměr BMI ve vzorku je 25,68 se směrodatnou odchylkou 6,46. A proto jsem pacienty s vyšším než 32,14 a nižším než 19,22 vyřazuji z posuzovaného souboru. Jsou to pacienti číslo: 7,15,18,23,24,25,26 a 28.
2.2.1 Počet hospitalizací Počet hospitalizací pacientů je značně proměnný, aritmetický průměr hospitalizací je 4,13 se směrodatnou odchylkou 4,82. Tedy pacienty s více jak 8,95 hospitalizacemi jsem vyřadil ze souboru, spodní hranice odchylky byla omezena vstupní podmínkou alespoň jedné hospitalizace. Pod tímto omezením jsem vyloučil pacienty číslo: 3,4,7, 21. Sloučením podmínek o BMI a počtu hospitalizací získávám základní soubor pacientů pro regresní analýzu. Tento soubor obsahuje 18 pacientů: 1, 2, 5, 6, 8, 9, 10, 11, 12, 13, 14, 16, 17, 19, 20, 27, 29. Z těchto pacientů vytvářím regresní funkci, kdy nezávislou proměnnou x je hodnota BMI a závislou proměnnou y je počet hospitalizací pacienta. V tabulce uvádím soubor vstupních dat použitých k tvorbě regresní funkce. BMI počet hosp. 1 30,39 4 2 27,44 1 5 23,37 2 6 25,39 1 8 24,69 1 9 27,78 2 10 24,69 1 11 23,57 3 12 29,41 6 13 25,06 2 14 23,83 3 16 22,86 3 17 31,79 1 19 21,47 3 20 25,99 4 22 22,15 1 27 21,22 3 29 31,74 3 Tabulka 7 BMI a počtu hospitalizací
Z těchto vstupních dat vytvářím bodový graf, ze kterého vznikají odhady regresních funkcí. Na ose x se nachází hodnoty BMI, na ose y jsou počty hospitalizací.
- 30 -
7 6 5 4 3 2 1 0 15,00
20,00
25,00
30,00
35,00
Graf 2 Bodový graf BMI a počtu hospitalizací
Pro odhadnutí tvaru usuzuji z bodového grafu tvar funkce. Podle hrubého odhadu je zřejmé, že v intervalu 20 – 25 BMI jde o nerostoucí funkci a od 25 BMI jde o slabý nárůst. Po doplnění spojnice trendů vzniká následující tabulka možných funkcí a jejich indexů determinace. Při vytvoření přímkové regrese ve tvaru η = β 0 + β 1 x a dosazení za f1(x) = x. Získávám lineární regresní rovnici: y = 0,0691x + 0,668 s indexem determinace a úplným indexem determinace: R2= 0,0282
2 RADJ = -0,03
Při vytvoření parabolické regrese ve tvaru η = β 0 + β 1 x + β 2 x 2 a za f1(x) = x, f2(x) = x2. Získávám parabolickou regresní rovnici: y = 0,0147x2 - 0,7143x + 10,921 s indexem determinace a úplným indexem determinace: R2= 0,0399
2 RADJ = -0,09
Při obecném dosazení tvaru η = β 0 + β 1 x + β 2 x 2 + ... + βpx p a za f1(x) = x, f2(x) = x2, f3(x) = x3. Získávám polynomickou rovnici regresní 3-řádu: y = -0,0204x3 + 1,6331x2 - 43,008x + 375,8 s indexem determinace a úplným indexem determinace: R2= 0,2117
2 RADJ = 0,04
Při obecném dosazení tvaru η = β 0 + β 1 x + β 2 x 2 + ... + βpx p a za f1(x) = x, f2(x) = x2, f3(x) = x3, f4(x) = x4. Získávám polynomickou regresní rovnici 4-řádu: y = -0,0079x4 + 0,8152x3 - 31,303x2 + 530,02x - 3337,4 s indexem determinace a úplným indexem determinace: R2= 0,3763
2 RADJ = 0,18
- 31 -
Při obecném dosazení tvaru η = β 0 + β 1 x + β 2 x 2 + ... + βpx p a za f1(x) = x, f2(x) = x2, f3(x) = x3, f4(x) = x4, f5(x) = x5. Získávám polynomickou regresní rovnici 5-řádu: y = -0,0018x5 + 0,2331x4 - 11,862x3 + 300,48x2 - 3790x + 19049 s indexem determinace a úplným indexem determinace: R2= 0,4319
2 RADJ = 0,20
Při obecném dosazení tvaru η = β 0 + β 1 x + β 2 x 2 + ... + βpx p a za f1(x) = x, f2(x) = x2, f3(x) = x3, f4(x) = x4, f5(x) = x5, f6(x) = x6. Získávám polynomickou regresní rovnici 6řádu: y = 0,0006x6 - 0,1007x5 + 6,7309x4 - 238,71x3 + 4737,6x2 - 49894x + 217856 s indexem determinace a úplným indexem determinace: R2= 0,4614
2 RADJ = 0,17
Při dosazení do tvaru η = β 0 + β 1 ln x za f1(x) = lnx . Získám logaritmickou regresní rovnici: y = 1,7287Ln(x) - 3,1551 s indexem determinace a úplným indexem determinace: R2= 0,0255
2 RADJ = -0,04
Při dosazení do tvaru η = β 0 β 1 x za f1(x) = x, Získám exponenciální regresní funkci: 0,012x
y = 1,5304e
s indexem determinace a úplným indexem determinace: R2= 0,0046
2 RADJ = -0,06
Z vybraných funkcí má funkce: y = -0,0018x5 + 0,2331x4 - 11,862x3 + 300,48x2 - 3790x + 19049 2 nejvyšší hodnotu RADJ = 0,20 a R2= 0,4319. Proto tuto funkci volím, jako regresní
funkci vysvětlují vztah mezi BMI a počtem hospitalizací. Zobrazení regresní funkce je na následujícím grafu.
- 32 -
7 6 5 4 3 2 1 0 15,00
20,00
25,00
30,00
35,00
Graf 3 Regresní funkce vysvětlující vztah mezi BMI a počtem hospitalizací
Tato regresní funkce je polynomem 5. řádu. Z grafu je viditelný jasný vztah BMI k počtu hospitalizací. Na intervalu (0,19) BMI, podvyživení lidé, jsem nezískal relevantní část funkce a možné odhady jsou extrapolací ze získané funkce. Na intervalu <19,25> BMI je regresní funkce klesající. Lidé s normální vahou mají nižší počet hospitalizací než ostatní skupiny v celkovém měřítku. Lidé s nadváhou od 25 BMI mají nejnižší počet hospitalizací, ale lidé s vyšší nadváhou naopak dosahují vrcholu v počtu hospitalizací. Obezita je výrazným medicínským problémem, komplikuje řadu chorob, nemohu se vyjadřovat k jejímu vztahu k CHOPN, ale jednoznačně vyplývá, že obezita v daném souboru statisticky výrazně zvyšuje počet hospitalizací.
2.2.2 Délka hospitalizací Délkou hospitalizací se myslí suma délek jednotlivých hospitalizací. Například pacient strávil při první hospitalizaci 3 dny v nemocnici a při druhé hospitalizaci 15 dní. Jeho délka hospitalizací je 18 dní. Průměrný součet dnů hospitalizací pacienta v tomto souboru s CHOPN je 70 dní se směrodatnou odchylkou 124,43 dne. Horní mezí pro omezení je 194,43 dne, a proto vyřazuji pacienty s více než 195 dny. Dolní mez se dostala do záporných čísel a tím nesplňuje základní omezující podmínku souboru. Vyřadil jsem pacienty číslo: 8 a 22. Tato podmínka soubor omezuje minimálně, většina souboru se pohybuje v blízkosti průměru. Velikost směrodatné odchylky je způsobena těmito dvěma pacienty. Pacient číslo 8 strávil v nemocnici 410 dní a číslo 22 dokonce 573 dní, proto tito pacienti výrazně narušují velikost směrodatné odchylky. Opětovným sloučením s BMI podmínkou získávám soubor 20 pacientů. Konkrétně 1, 2, - 33 -
3, 4, 5, 6, 8, 9, 10, 11, 12, 13, 14, 16, 17, 19, 20, 22, 27, 29 používám pro regresní analýzu. V tabulce je přehled vstupních dat. Délka hosp. 1 30,39 39 2 27,44 3 3 24,84 159 4 25,51 187 5 23,37 24 6 25,39 8 8 24,69 10 9 27,78 15 10 24,69 20 11 23,57 39 12 29,41 65 13 25,06 22 14 23,83 23 16 22,86 13 17 31,79 1 19 21,47 74 20 25,99 33 22 22,15 4 27 21,22 40 29 31,74 53 Tabulka 8 BMI a délky hospitalizací BMI
Z dat získaných omezeními BMI a počtu dnů hospitalizace tabulky vytvářím bodový graf. Na ose x jsou hodnoty BMI, na ose y jsou hodnoty délek hospitalizace. 200 150 100 50 0 15,00
20,00
25,00
30,00
35,00
Graf 4 Bodový graf BMI a délka hospitalizací
Pro odhad funkce je tento graf jednoznačný. Dvě hodnoty jsou extrémní oproti dalším naměřeným hodnotám, ale ostatní hodnoty tvoří pásový shluk. Zde očekávám formu lineární funkce, která je pravděpodobně rostoucí. Při vytvoření přímkové regrese ve tvaru η = β 0 + β 1 x a dosazení za f1(x) = x. Získávám lineární regresní rovnici: y = -0,5973x + 56,926 - 34 -
s indexem determinace a úplným indexem determinace: R2= 0,0015
2 RADJ =-0,05
Při vytvoření parabolické regrese ve tvaru η = β 0 + β 1 x + β 2 x 2 a za f1(x) = x, f2(x) = x2. Získávám parabolickou regresní rovnici: y = -0,6003x2 + 31,376x - 362,44 s indexem determinace a úplným indexem determinace: R2= 0,0163
2 RADJ = -0,10
Při obecném dosazení tvaru η = β 0 + β 1 x + β 2 x 2 + ... + βpx p a za f1(x) = x, f2(x) = x2, f3(x) = x3. Získávám polynomickou rovnici regresní 3-řádu: y = -0,0627x3 + 4,3591x2 - 98,066x + 752,96 s indexem determinace a úplným indexem determinace: R2= 0,0175
2 RADJ =-0,17
Při obecném dosazení tvaru η = β 0 + β 1 x + β 2 x 2 + ... + βpx p a za f1(x) = x, f2(x) = x2, f3(x) = x3, f4(x) = x4. Získávám polynomickou regresní rovnici 4-řádu: y = 0,1063x4 - 11,317x3 + 448,25x2 - 7827x + 50879 s indexem determinace a úplným indexem determinace: R2= 0,0395
2 RADJ = -0,22
Při obecném dosazení tvaru η = β 0 + β 1 x + β 2 x 2 + ... + βpx p a za f1(x) = x, f2(x) = x2, f3(x) = x3, f4(x) = x4, f5(x) = x5. Získávám polynomickou regresní rovnici 5-řádu: y = -0,09x5 + 11,995x4 - 636,29x3 + 16793x2 - 220491x + 1E+06 s indexem determinace a úplným indexem determinace: R2= 0,1391
2 RADJ = -0,17
Při obecném dosazení tvaru η = β 0 + β 1 x + β 2 x 2 + ... + βpx p a za f1(x) = x, f2(x) = x2, f3(x) = x3, f4(x) = x4, f5(x) = x5, f6(x) = x6. Získávám polynomickou regresní rovnici 6řádu: y = -0,0109x6 + 1,6399x5 - 101,73x4 + 3335,2x3 - 60916x2 + 587246x - 2E+06 s indexem determinace a úplným indexem determinace: R2= 0,1458
2 RADJ = -0,25
Při dosazení do tvaru η = β 0 + β 1 ln x za f1(x) = lnx . Získám logaritmickou regresní rovnici: y = -12,737Ln(x) + 82,84 s indexem determinace a úplným indexem determinace: - 35 -
R2= 0,001
2 RADJ =-0,05
Při dosazení do tvaru η = β 0 β 1 x za f1(x) = x, Získám exponenciální regresní funkci: y = 135,57e-0,0709x s indexem determinace a úplným indexem determinace: R2= 0,0306
2 RADJ =-0,02
Na první pohled je zřejmé, že index determinace nepřesáhl hodnotu 0,2. Proto jde o velmi špatný odhad pomocí regresní funkce a dokonce všechny úplné indexy determinace se dostaly do záporných hodnot. Proto se nepokouším vybrat regresní rovnici z navrhované množiny. Pokud bych uvažoval o zpřesnění vstupních dat, vyřadím pacienta číslo 3 a 4. Pacienti 3 a 4 tvoří vysokou odchylku od průměru, pacient číslo 3 159dní strávil v nemocnici a číslo 4 187 dní. Tímto narušují homogenitu souboru. Po vyřazení pacientů vzniká homogenní soubor, u kterého jsem získal následující funkce. Při vytvoření přímkové regrese ve tvaru η = β 0 + β 1 x a dosazení za f1(x) = x. Získávám linearní regresní rovnici: y = 0,0921x + 24,632 s indexem determinace a úplným indexem determinace: R2= 0,0002
2 RADJ = -0,06
Při vytvoření parabolické regrese ve tvaru η = β 0 + β 1 x + β 2 x 2 a za f1(x) = x, f2(x) = x2. Získávám parabolickou regresní rovnici: y = 0,747x2 - 39,659x + 544,92 s indexem determinace a úplným indexem determinace: R2= 0,1275
2 RADJ =0,02
Při obecném dosazení tvaru η = β 0 + β 1 x + β 2 x 2 + ... + βpx p a za f1(x) = x, f2(x) = x2, f3(x) = x3. Získávám polynomickou rovnici regresní 3-řádu: y = -0,2798x3 + 22,907x2 - 618,76x + 5541 s indexem determinace a úplným indexem determinace: R2= 0,2633
2 RADJ = 0,13
Při obecném dosazení tvaru η = β 0 + β 1 x + β 2 x 2 + ... + βpx p a za f1(x) = x, f2(x) = x2, f3(x) = x3, f4(x) = x4. Získávám polynomickou regresní rovnici 4-řádu: y = -0,0448x4 + 4,4616x3 - 163,97x2 + 2632,6x - 15527 s indexem determinace a úplným indexem determinace: R2= 0,2857
2 RADJ = 0,10
- 36 -
Při obecném dosazení tvaru η = β 0 + β 1 x + β 2 x 2 + ... + βpx p a za f1(x) = x, f2(x) = x2, f3(x) = x3, f4(x) = x4, f5(x) = x5. Získávám polynomickou regresní rovnici 5-řádu: y = -0,0368x5 + 4,8238x4 - 251,67x3 + 6539,7x2 - 84653x + 436797 s indexem determinace a úplným indexem determinace: R2= 0,3814
2 RADJ = 0,16
Při obecném dosazení tvaru η = β 0 + β 1 x + β 2 x 2 + ... + βpx p a za f1(x) = x, f2(x) = x2, f3(x) = x3, f4(x) = x4, f5(x) = x5, f6(x) = x6. Získávám polynomickou regresní rovnici 6řádu: y = 0,0076x6 - 1,2421x5 + 84,033x4 - 3017x3 + 60629x2 - 646661x + 3E+06 s indexem determinace a úplným indexem determinace: R2= 0,3999
2 RADJ =0,12
Při dosazení do tvaru η = β 0 + β 1 log x za f1(x) = logx . Získám logaritmickou regresní rovnici: y = -1,2942Ln(x) + 31,192 s indexem determinace a úplným indexem determinace: 2 R2= 6,00E-05 RADJ = -0,06
Při dosazení do tvaru η = β 0 β 1 x za f1(x) = x, Získám exponenciální regresní funkci: y = 81,472e-0,0599x s indexem determinace a úplným indexem determinace: R2= 0,031
2 RADJ = -0,02
Z množiny funkcí připadajících jako možné pro regresní funkci, má nejlepší spočítané 2 hodnoty RADJ funkce:
y = -0,0368x5 + 4,8238x4 - 251,67x3 + 6539,7x2 - 84653x + 436797 2 Tato funkce je polynomem 5- řádu s těmito indexy R2= 0,3814, RADJ = 0,16.
- 37 -
80 70 60 50 40 30 20 10 0 15,00
20,00
25,00
30,00
35,00
Graf 5 Regresní funkce vysvětlující BMI a počet dní hospitalizace
Tato regresní funkce je opět polynomem 5- řádu jako přecházející regresní funkce. Po grafickém srovnání vidíme velkou podobnost k regresní funkci vyjadřující vztah BMI a počtu hospitalizací. A proto je vysvětlení stejné jako u předcházející regresní funkce. Podobnost funkcí by měla být logickým důsledkem sebraných dat. Můžeme předpokládat, že v průměru je délka pacientovi hospitalizace stejná. Výsledná regresní funkce, vysvětlující počet dní hospitalizace k BMI, by měla být lineární transformací regresní funkce, která vysvětluje počet hospitalizací k BMI.
2.2.3 Celková doba onemocnění Celková doba dožití pacienta je období od první hospitalizace po jeho úmrtí. Tato hodnota je součtem období, kdy byl pacient ošetřován v nemocnici, a obdobím normálního života mimo nemocnici. Aritmetický průměr dožití pacienta s CHOPN od první hospitalizace je 851,82 dne, pro lepší představu se jedná přibližně o 2 roky a 4 měsíce. Směrodatná odchylka vyšla na 523,51 dne, dolní mez omezení je 328,32 dne a horní mez je 1375,34 dne. Tuto podmínkou omezení nesplňují pacienti číslo: 2, 3, 4, 8, 9, 14, 15, 17, 23, 24. Sloučením s BMI podmínkou vzniká soubor pouhých 13 pacientů: 1, 5, 6, 10, 11, 12, 13, 16, 17, 19, 20, 21, 27, 29. V následující tabulce je shrnutí BMI pacientů a celkové délky léčby od první hospitalizace.
- 38 -
délka léčby 1 30,39 1303 5 23,37 786 6 25,39 864 10 24,69 287 11 23,57 977 12 29,41 1086 13 25,06 642 16 22,86 958 19 21,47 579 20 25,99 827 21 30,80 1349 27 21,22 984 29 31,74 616 Tabulka 9 BMI a celková délka léčby BMI
Z tabulky se opět vytváří bodový graf. Opět na ose x nacházíme BMI a na y ose vidíme absolutní délku nemoci po první hospitalizaci. 1600 1400 1200 1000 800 600 400 200 0 15,00
20,00
25,00
30,00
35,00
Graf 6 Bodový graf BMI a absolutní délky léčby
U toho grafu je počátečný odhad obtížný. Graf je rozdělen na dva shluky, kdy první shluk je vymezen intervalem 20 až 25 BMI. Druhý shluk je tvořen daty v okolí 30 BMI. Mezi shluky vidíme rostoucí tendenci, a proto očekávám rostoucí funkci. Pomocí Excelu jsem vytvořil regresní rovnice, které popisuji níže. Při vytvoření přímkové regrese ve tvaru η = β 0 + β 1 x a dosazení za f1(x) = x. Získávám lineární regresní rovnici: y = 31,536x + 51,023 s indexem determinace: R2= 0,148
2 RADJ =0,07
Při vytvoření parabolické regrese ve tvaru η = β 0 + β 1 x + β 2 x 2 a za f1(x) = x, f2(x) = x2. Získávám parabolickou regresní rovnici: - 39 -
y = 4,1168x2 - 187,28x + 2907,2 s indexem determinace a úplným indexem determinace: R2= 0,1671
2 RADJ =0,00
Při obecném dosazení tvaru η = β 0 + β 1 x + β 2 x 2 + ... + βpx p a za f1(x) = x, f2(x) = x2, f3(x) = x3. Získávám polynomickou rovnici regresní 3-řádu: y = -5,0836x3 + 402x2 - 10462x + 90493 s indexem determinace a úplným indexem determinace: R2= 0,3644
2 RADJ =0,15
Při obecném dosazení tvaru η = β 0 + β 1 x + β 2 x 2 + ... + βpx p a za f1(x) = x, f2(x) = x2, f3(x) = x3, f4(x) = x4. Získávám polynomickou regresní rovnici 4-řádu: y = -1,8159x4 + 187,65x3 - 7217x2 + 122460x - 772918 s indexem determinace a úplným indexem determinace: R2= 0,5831
2 RADJ = 0,37
Při obecném dosazení tvaru η = β 0 + β 1 x + β 2 x 2 + ... + βpx p a za f1(x) = x, f2(x) = x2, f3(x) = x3, f4(x) = x4, f5(x) = x5. Získávám polynomickou regresní rovnici 5-řádu: y = -0,2935x5 + 36,926x4 - 1847,2x3 + 45931x2 - 567883x + 3E+06 s indexem determinace a úplným indexem determinace: R2= 0,6023
2 RADJ = 0,32
Při obecném dosazení tvaru η = β 0 + β 1 x + β 2 x 2 + ... + βpx p a za f1(x) = x, f2(x) = x2, f3(x) = x3, f4(x) = x4, f5(x) = x5, f6(x) = x6. Získávám polynomickou regresní rovnici 6řádu: y = -0,0877x6 + 13,715x5 - 891,99x4 + 30873x3 - 599764x2 + 6E+06x - 3E+07 s indexem determinace a úplným indexem determinace: R2= 0,6166
2 RADJ = 0,23
Při dosazení do tvaru η = β 0 + β 1 ln x za f1(x) = lnx . Získám logaritmickou regresní rovnici: y = 808,47Ln(x) - 1756,1 s indexem determinace a úplným indexem determinace: R2= 0,1409
2 RADJ = 0,06
Při dosazení do tvaru η = β 0 β 1 x za f1(x) = x, Získám exponenciální regresní funkci: y = 342,46e0,0333x s indexem determinace a úplným indexem determinace: - 40 -
R2= 0,0865
2 RADJ =0,00
Nejvyšší úplný index determinace 0,37 a R2= 0,5831 je u funkce: y = -1,8159x4 + 187,65x3 - 7217x2 + 122460x - 772918 Jedná se polynom 4-řádu. 1600 1400 1200 1000 800 600 400 200 0 15,00
20,00
25,00
30,00
35,00
Graf 7 Regresní funkce BMI k celkové době dožití od první hospitalizace
Tato regresní funkce vysvětluje vztah BMI k celkové době od první hospitalizace do úmrtí. Tato funkce na podobný tvar jako předcházející funkce. Ukazuje, že lidé v normě mají nižší počet dní od první hospitalizace do úmrtí. Lidé s vyšším BMI mají delší dobu přežití od první hospitalizace.
2.2.4 Celkové shrnutí rovnic s BMI Po vytvoření třech regresních rovnic, kde BMI bylo vysvětlující proměnnou k závislým proměnným. Získávám tři výsledné rovnice, které popisují závislost na BMI, jedná se o polynomy vyššího řádu. Tyto polynomy popisují hlavně interval pro pacienty s normální BMI a pacienty s vyšším BMI. Usuzuji, že lidé s vyšším BMI jsou častěji hospitalizováni než lidé s normálním BMI. Lidé s vyšším BMI se mají vyšší dobu přežití od první hospitalizace než lidé v intervalu s normálním BMI. Výsledné rovnice jsou tři. Rovnice pro vztah BMI a počtu dní strávených v nemocnici. y = -0,0368x5 + 4,8238x4 - 251,67x3 + 6539,7x2 - 84653x + 436797 2 = 0,16, výsledné indexy jsou relativně slušné k získanému S indexy R2= 0,3814, RADJ
polynomu. Rovnice pro vztah BMI a počtu hospitalizací. y = -0,0018x5 + 0,2331x4 - 11,862x3 + 300,48x2 - 3790x + 19049 2 má hodnotu RADJ = 0,20 a R2= 0,4319.
Rovnice pro vztah BMI a celkové doby dožití pacienta. - 41 -
y = -1,8159x4 + 187,65x3 - 7217x2 + 122460x – 772918 S úplným indexem determinace 0,37 a R2= 0,5831, jedná se o nejlepší závislost, kterou jsem získal. Mé zjištěné indexy determinace nejsou vysoké, protože moje získané soubory dat mají velkou rozdílnost v naměřených hodnotách. Myslím si, že funkce jsou kvalitní a při rozsáhlejším sběru dat by mohlo dojít k jejich zpřesnění.
2.3 Postup výpočtu regresní funkce k balíčkorokům Jako druhou proměnnou, kterou vysvětluji ve své práci, si volím počet balíčkoroků. Opět vysvětluji počet hospitalizací, počet dní hospitalizace pacienta a celkovou dobu přežití od první léčby. Počet balíčkoroků vystihuje míru, s jakou pacient kouřil, před první hospitalizací. Kouření je předpokládaným faktorem, který ovlivňuje míru nemoci negativně. Pacienti uváděli počet cigaret, které kouřil. Tento počet byl následně přepočítán na balíčkoroky. U nekuřáků je uváděna nula. Můj odhad regresních funkcí, které vytvářím, je následující. Očekávám klesající funkce nebo rostoucí, s větším počtem balíčkoroků, klesají nebo stoupají hodnoty vysvětlovaných proměnných. Tedy očekávám funkce s jasným trendem. Z mého souboru pacientů vytvářím aritmetický průměr počtu vykouřených balíčkoroků. Tento průměr je 35,28 balíčkoroků s se směrodatnou odchylkou 27,31 balíčkoroků. Proto je soubor pacientů omezen o pacienty, kteří mají méně než 7,97 balíčkoroku a více než 62,58 balíčkoroku. Tedy nekuřáci jsou vyřazeni z mého souboru. Vyřazení jsou pacienti číslo 5, 8, 11, 16, 17, 20, 27, 28.
2.3.1 Počet hospitalizací Další vytvořenou regresní funkcí je funkce vysvětlující vztah počtu balíčkoroků a počtu hospitalizací. Parametr počet hospitalizací je vysvětlen výše v mé práci v kapitole o BMI a počtu hospitalizací. Je vysvětlen včetně omezení, která platí i pro tuto kapitolu. Moje očekávání je jednoduché, s rostoucím počtem balíčkoroků poroste počet hospitalizací. Spojení podmínek o počtu hospitalizací a počtem balíčkoroků vznikl soubor pro vytvoření regresní funkce. Výsledný soubor má 18 pacientů, přesněji pacienty číslo 1, 2, 6, 9, 10, 11, 12, 13, 14, 15, 18, 19, 22, 23, 24, 25, 26, 29.
- 42 -
počet hosp. 1 45 4 2 45 1 6 60 1 9 50 2 10 42 1 11 70 3 12 25 6 13 20 2 14 35 3 15 60 2 18 40 2 19 35 3 22 20 1 23 60 1 24 60 2 25 12 8 26 45 1 29 20 3 Tabulka 10 Počtu hospitalizací a balíčkoroků balíčkorok
V následujícím grafu je na ose x počet balíčkoroků, na ose y je počet hospitalizací pacienta. 9 8 7 6 5 4 3 2 1 0 0
10
20
30
40
50
60
70
80
Graf 8 Počtu hospitalizací a počtu balíčkoroků
Při vytvoření přímkové regrese ve tvaru η = β 0 + β 1 x a dosazení za f1(x) = x. Získávám lineární regresní rovnici: y= -0,0537x + 4,7742 s indexem determinace a úplným indexem determinace: R2= 0,23
2 RADJ = 0,19
Při vytvoření parabolické regrese ve tvaru η = β 0 + β 1 x + β 2 x 2 a za f1(x) = x, f2(x) = x2. Získávám parabolickou regresní rovnici: y = 0,0026x2 - 0,2628x + 8,2948 - 43 -
s indexem determinace a úplným indexem determinace: R2= 0,37
2 RADJ = 0,29
Při obecném dosazení tvaru η = β 0 + β 1 x + β 2 x 2 + ... + βpx p a za f1(x) = x, f2(x) = x2, f3(x) = x3. Získávám polynomickou rovnici regresní 3-řádu: y = -5E-05x3 + 0,0082x2 - 0,4716x + 10,474 s indexem determinace a úplným indexem determinace: R2= 0,38
2 RADJ = 0,25
Při obecném dosazení tvaru η = β 0 + β 1 x + β 2 x 2 + ... + βpx p a za f1(x) = x, f2(x) = x2, f3(x) = x3, f4(x) = x4. Získávám polynomickou regresní rovnici 4-řádu: y = 9E-06x4 - 0,0015x3 + 0,0886x2 - 2,3249x + 24,6 s indexem determinace a úplným indexem determinace: R2= 0,50
2 RADJ = 0,35
Při obecném dosazení tvaru η = β 0 + β 1 x + β 2 x 2 + ... + βpx p a za f1(x) = x, f2(x) = x2, f3(x) = x3, f4(x) = x4, f5(x) = x5. Získávám polynomickou regresní rovnici 5-řádu: y = -7E-07x5 + 0,0002x4 - 0,0126x3 + 0,4789x2 - 8,5097x + 59,499 s indexem determinace a úplným indexem determinace: R2= 0,61
2 RADJ = 0,44
Při obecném dosazení tvaru η = β 0 + β 1 x + β 2 x 2 + ... + βpx p a za f1(x) = x, f2(x) = x2, f3(x) = x3, f4(x) = x4, f5(x) = x5, f6(x) = x6. Získávám polynomickou regresní rovnici 6řádu: y = 1E-07x6 - 3E-05x5 + 0,0032x4 - 0,1579x3 + 4,1603x2 - 54,295x + 275,27 s indexem determinace a úplným indexem determinace: R2= 0,81
2 RADJ =0,70
Při dosazení do tvaru η = β 0 + β 1 ln x za f1(x) = lnx . Získám logaritmickou regresní rovnici: y = -2,1783Ln(x) + 10,444 s indexem determinace a úplným indexem determinace: R2= 0,32
2 RADJ =0,28
Při dosazení do tvaru η = β 0 β 1 x za f1(x) = x, Získám exponenciální regresní funkci: y = 3,8943e-0,0153x s indexem determinace a úplným indexem determinace: R2= 0,16
2 RADJ = 0,11
- 44 -
Nejlepší indexy má regresní rovnice 6-řádu: y = 1E-07x6 - 3E-05x5 + 0,0032x4 - 0,1579x3 + 4,1603x2 - 54,295x + 275,27 s indexem determinace a úplným indexem determinace: R2= 0,81
2 RADJ =0,70
Tuto rovnici zobrazuji na následujícím grafu. Kde vidíme regresní rovnici. 9 8 7 6 5 4 3 2 1 0 0
10
20
30
40
50
60
70
80
Graf 9 Regresní funkce k počtu balíčkoroků a počtu hospitalizací
Regresní funkce, kterou jsem získal, je polynom 6- řádu. Očekával jsem jednodušší tvar regresní funkce, tento tvar je příliš složitý a nemá jasnou klesající nebo rostoucí tendenci. Toto zjištění mne překvapilo, protože jsem očekával nějakou přímou spojitost mezi počtem balíčkoroků a počtem hospitalizací. Na této křivce je vidět, oscilace od 20 balíčkoroků. Tato oscilace je v oblasti od 1 do 4 hospitalizace, tedy v oblasti průměru. Moje očekávání bylo, že s počtem balíčkoroků poroste počet hospitalizací. Proto na základě své funkce se můžu domnívat, že zde není přímá závislost mezi kouřením a počtem hospitalizací na nemoc CHOPN.
2.3.2 Délka hospitalizací V této části mé práci vytvářím regresní funkci, která vysvětluje vztah mezi délkou hospitalizací a počtem balíčkoroků. Délka hospitalizací je vysvětlena výše v mé práci, konkrétně v kapitole vysvětlující BMI a počet hospitalizací, přebírám i omezení o délce hospitalizací uvedená výše. Očekávám s vyšším počtem balíčkoroků, větší počet dní strávených v nemocnici. Sloučením podmínek o počtu balíčkoroků a celkové délce dožití od první hospitalizace mám soubor 13 pacientů. Konkrétně tento soubor 1, 6, 7, 10, 12, 13, 18, 19, 21, 24, 25, 26, 29 pacientů používám pro regresní analýzu. V tabulce je přehled vstupních dat.
- 45 -
trvaní hosp. 1 45 39 2 45 3 3 9 159 4 30 187 6 60 8 9 50 15 10 42 20 11 70 39 12 25 65 13 20 22 14 35 23 15 60 32 18 40 8 19 35 74 22 20 4 23 60 11 24 60 49 25 12 99 26 45 5 29 20 53 Tabulka 11 Počet balíčkoroků a trvání hospitalizací balíčkorok
Následující graf popisuje vztah mezi počtem balíčkoroků na nezávislé ose x a počtem dnů, které pacient strávil v nemocnici, na ose y. 200 150 100 50 0 0
10
20
30
40
50
60
70
80
Graf 10 Počtu balíčkoroků a délky trvání hospitalizací
Při vytvoření přímkové regrese ve tvaru η = β 0 + β 1 x a dosazení za f1(x) = x. Získávám lineární regresní rovnici: y = -1,3766x + 99,643 s indexem determinace a úplným indexem determinace: R2= 0.23
2 RADJ =0,19
Při vytvoření parabolické regrese ve tvaru η = β 0 + β 1 x + β 2 x 2 a za f1(x) = x, f2(x) = x2. Získávám parabolickou regresní rovnici: - 46 -
y = 0,0473x2 - 5,0431x + 156,53 s indexem determinace a úplným indexem determinace: R2= 0,31
2 RADJ =0,23
Při obecném dosazení tvaru η = β 0 + β 1 x + β 2 x 2 + ... + βpx p a za f1(x) = x, f2(x) = x2, f3(x) = x3. Získávám polynomickou rovnici regresní 3-řádu: y = -0,0003x3 + 0,0771x2 - 6,061x + 165,89 s indexem determinace a úplným indexem determinace: R2= 0,31
2 RADJ =0,18
Při obecném dosazení tvaru η = β 0 + β 1 x + β 2 x 2 + ... + βpx p a za f1(x) = x, f2(x) = x2, f3(x) = x3, f4(x) = x4. Získávám polynomickou regresní rovnici 4-řádu: y = 0,0001x4 - 0,0212x3 + 1,1976x2 - 29,45x + 318,28 s indexem determinace a úplným indexem determinace: R2= 0,36
2 RADJ =0,19
Při obecném dosazení tvaru η = β 0 + β 1 x + β 2 x 2 + ... + βpx p a za f1(x) = x, f2(x) = x2, f3(x) = x3, f4(x) = x4, f5(x) = x5. Získávám polynomickou regresní rovnici 5-řádu: y = -2E-05x5 + 0,0046x4 - 0,3542x3 + 12,381x2 - 194,78x + 1148,8 s indexem determinace a úplným indexem determinace: R2= 0,60
2 RADJ =0,46
Při obecném dosazení tvaru η = β 0 + β 1 x + β 2 x 2 + ... + βpx p a za f1(x) = x, f2(x) = x2, f3(x) = x3, f4(x) = x4, f5(x) = x5, f6(x) = x6. Získávám polynomickou regresní rovnici 6řádu: y = 5E-07x6 - 0,0001x5 + 0,0148x4 - 0,8195x3 + 23,371x2 - 319,66x + 1669,7 s indexem determinace a úplným indexem determinace: R2= 0,61
2 RADJ = 0,43
Při dosazení do tvaru η = β 0 + β 1 ln x za f1(x) = lnx . Získám logaritmickou regresní rovnici: y = -49,286Ln(x) + 220,18 s indexem determinace a úplným indexem determinace: R2= 0,30
2 RADJ =0,26
Při dosazení do tvaru η = β 0 β 1 x za f1(x) = x, Získám exponenciální regresní funkci: y = 63,379e-0,0235x s indexem determinace a úplným indexem determinace: - 47 -
R2= 0,12
2 RADJ =0,07
2 Nejlepší indexy determinace má polynom 5- řádu, RADJ =0,46 a R2= 0,60 . Proto volím
za regresní rovnici tento polynom: y = -2E-05x5 + 0,0046x4 - 0,3542x3 + 12,381x2 - 194,78x + 1148,8 200 150 100 50 0 0
10
20
30
40
50
60
70
80
-50 Graf 11 Regresní funkce pro počet balíčkoroků a trvání hospitalizací
Výslednému polynomu vyšli vysoké indexy determinace, které potvrzují dobrou kvalitu funkce. Tato funkce je kvalitní, ale díky své polynomické struktuře se nachází v záporném počtu dní strávených v nemocnici. Proto je jasné, že je v tomto intervalu velmi nepřesná. Tato funkce je pro mne opět překvapující, očekával jsem jasný průběh. Funkce je velmi podobná předcházejí funkci z kapitoly o počtu balíčkoroků a počtu hospitalizací, toto je logické díky vztahu mezi měřenými daty.
2.3.3 Celková doba dožití pacienta Následující regresní funkce je tvořena závislou proměnnou celkovým dožitím pacienta a nezávislou proměnnou počtem balíčkoroků. Celková doba dožití pacienta s CHOPN po první hospitalizaci a její omezení je přesně definována výše v kapitole týkající se závislosti celkového dožití na BMI. Podmínky omezující soubor pro vytvoření regresní funkce. Sloučením podmínek o počtu balíčkoroků a celkové délce dožití od první hospitalizace mám soubor 13 pacientů. Konkrétně tento soubor 1, 6, 7, 10, 12, 13, 18, 19, 21, 24, 25, 26, 29 pacientů používám pro regresní analýzu. V tabulce je přehled vstupních dat.
- 48 -
délka léčby 1 45 1303 6 60 864 7 20 609 10 42 287 12 25 1086 13 20 642 18 40 704 19 35 579 21 40 1349 24 60 707 25 12 1126 26 45 572 29 20 616 Tabulka 12 Počtu balíčkoroků a dnů dožití pacienta od první hospitalizace balíčkorok
V následujícím grafu máme na ose x počet balíčkoroků a na vysvětlované ose y se nachází počet dní, které se pacient dožil od první hospitalizace. 1600 1400 1200 1000 800 600 400 200 0 0
10
20
30
40
50
60
70
Graf 12 Přežití pacienta od první hospitalizace a počtu balíčkoroků
Při vytvoření přímkové regrese ve tvaru η = β 0 + β 1 x a dosazení za f1(x) = x. Získávám lineární regresní rovnici: y = -0,5952x + 824,63 s indexem determinace a úplným indexem determinace: R2=0,00
2 RADJ =-0,09
Při vytvoření parabolické regrese ve tvaru η = β 0 + β 1 x + β 2 x 2 a za f1(x) = x, f2(x) = x2. Získávám parabolickou regresní rovnici: y = 0,1213x2 - 9,4526x + 959,66 s indexem determinace a úplným indexem determinace: R2= 0,01
2 RADJ = -0,19
Při obecném dosazení tvaru η = β 0 + β 1 x + β 2 x 2 + ... + βpx p a za f1(x) = x, f2(x) = x2, - 49 -
f3(x) = x3. Získávám polynomickou rovnici regresní 3-řádu: y = -0,031x3 + 3,6277x2 - 128,38x + 2114,9 s indexem determinace a úplným indexem determinace: R2= 0,07
2 RADJ = -0,23
Při obecném dosazení tvaru η = β 0 + β 1 x + β 2 x 2 + ... + βpx p a za f1(x) = x, f2(x) = x2, f3(x) = x3, f4(x) = x4. Získávám polynomickou regresní rovnici 4-řádu: y = 0,0016x4 - 0,2587x3 + 14,399x2 - 331,5x + 3396,2 s indexem determinace a úplným indexem determinace: R2= 0,09
2 RADJ = -0,37
Při obecném dosazení tvaru η = β 0 + β 1 x + β 2 x 2 + ... + βpx p a za f1(x) = x, f2(x) = x2, f3(x) = x3, f4(x) = x4, f5(x) = x5. Získávám polynomickou regresní rovnici 5-řádu: y = -0,0007x5 + 0,12x4 - 7,9422x3 + 246,96x2 - 3570,7x + 19812 s indexem determinace a úplným indexem determinace: R2= 0,20
2 RADJ = -0,37
Při obecném dosazení tvaru η = β 0 + β 1 x + β 2 x 2 + ... + βpx p a za f1(x) = x, f2(x) = x2, f3(x) = x3, f4(x) = x4, f5(x) = x5, f6(x) = x6. Získávám polynomickou regresní rovnici 6řádu: y = 5E-05x6 - 0,0116x5 + 1,0073x4 - 44,452x3 + 1047,5x2 - 12385x + 57564 s indexem determinace a úplným indexem determinace: R2= 0,23
2 RADJ = - 0,55
Při dosazení do tvaru η = β 0 + β 1 ln x za f1(x) = lnx . Získám logaritmickou regresní rovnici: y = -42,542Ln(x) + 951,18 s indexem determinace a úplným indexem determinace: R2= 0,00
2 RADJ = -0,09
Při dosazení do tvaru η = β 0 β 1 x za f1(x) = x, Získám exponenciální regresní funkci: y = 779,52e-0,0013x s indexem determinace a úplným indexem determinace: R2= 0,00
2 RADJ = - 0,09
Z uvedených indexů determinace plyne, že regresní funkce je nesmyslná. Indexy determinace jsou všechny menší než 0,2, úplné indexy determinace jsou dokonce všechny záporné. Proto nemá smysl tvořit regresní funkci pro nezávislou proměnnou počet balíčkoroků vůči zavislé proměnné počet dní dožití pacienta od první - 50 -
hospitalizace. Důvodů proč nelze vytvořit regresní funkci je několik. Prvním důvodem je malá velikost zkoumaného souboru. Dalším důvodem je rozdílnost naměřených dat. Dny jsou moc malá jednotky a jsou zde velké rozdíly mezi jednotlivými hodnotami. Tento výsledek je pro mně překvapením, protože sem očekával regresní funkci, která bude mít jasnou tendenci. Tato tendence měla být klesající v funkce. Matematický závěr je tedy, že nelze vytvořit regresní funkci z těchto dat. Logický interpretace závěru říká, že není vztah mezi počtem balíčkoroků a počtem dožití pacienta od první hospitalizace.
2.3.4 Shrnutí výsledných rovnic s počtem balíčkoroků Podařilo se mi vytvořit dvě velmi kvalitní regresní funkce a to regresní funkci pro počet dní strávených v nemocnici y = -2E-05x5 + 0,0046x4 - 0,3542x3 + 12,381x2 - 194,78x + 1148,8. Druhou kvalitní regresní funkcí je vztah mezi počtem hospitalizací a počtem balíčkoroků y = 1E-07x6 - 3E-05x5 + 0,0032x4 - 0,1579x3 + 4,1603x2 - 54,295x + 275,27. Třetí regresní funkce se mi nepodařila vytvořit z důvodu velké rozdílnosti naměřených dat. Mnou vytvořené funkce mají dobré indexy determinace, ale logické závěry jsou zcela jiné než sem předpokládal. Podle nastudované literatury jsem odhadoval jasný klesající nebo rostoucí trend v závislosti na počtu balíčkoroků. Ale výsledky ukázali chybu v mém odhadu, protože rovnice neukazují tyto tendence.
- 51 -
3 Závěr Cílem mé práce bylo vytvoření regresních rovnic, které popisují faktory ovlivňující nemoc CHOPN. Podařilo se mi vytvořit 5 velmi kvalitních rovnic ze získaných dat. Jedna rovnice se mi nepodařila vytvořit, kvůli nedostatečné kvalitě vstupních dat. Pro mojí práci byly nejdůležitější dva hlavní faktory, které ovlivňují CHOPN, zvolil jsem si BMI a počet balíčkoroků. Tyto faktory jsou zcela odlišné, BMI popisuje stav pacientova těla z hlediska životosprávy a počet balíčkoroků uvádí míru jeho závislosti na kouření. První skupinou jsou regresní funkce, kde nezávislou proměnnou tvoří BMI a závislou proměnnou tvoří počet hospitalizací, počet dní strávených v nemocnici během hospitalizací a celková doba dožití pacientů. První regresní funkce pro vztah BMI a počtu dní strávených v nemocnici y = -0,0368x5 + 4,8238x4 - 251,67x3 + 6539,7x2 - 84653x + 436797. Další regresní funkce pro vztah BMI a počtu hospitalizací y = -0,0018x5 + 0,2331x4 - 11,862x3 + 300,48x2 - 3790x + 19049. Regresní funkce pro vztah BMI a celkové doby dožití pacienta y = -1,8159x4 + 187,65x3 - 7217x2 + 122460x – 772918. Tato skupina funkcí zobrazila skutečnost, že lidé s vyšším BMI mají obvykle vyšší dobu přežití s nemocí, větší počet dnů v nemocnici a více hospitalizací. Druhá skupina je tvořena regresními funkcemi, které volí jako nezávislou proměnnou počet balíčkoroků a opět zavislé parametry počet hospitalizací, počet dní strávených v nemocnici během hospitalizací a celková doba dožití pacientů. Vytvořenou regresní funkci pro počet dní strávených v nemocnici je funkce y = -2E-05x5 + 0,0046x4 - 0,3542x3 + 12,381x2 - 194,78x + 1148,8. Druhou regresní funkcí je vztah mezi počtem hospitalizací a počtem balíčkoroků y = 1E-07x6 - 3E-05x5 + 0,0032x4 - 0,1579x3 + 4,1603x2 - 54,295x + 275,27. Regresní funkci se mi nepodařilo vytvořit z důvodu žadné vnitřní souvisloti mezi naměřenými daty. Tyto regresní funkce vysvětlují balíčkoroky jako míru závislosti pacienta na kouření. Funkce nevytváří žadnou přímou závislost mezi balíčkoroky a závislími proměnnými. Celková zjištění mé práce mne překvapila, protože jsem očekával jednoznačnější podobu funkcí. Ale výsledné regresní fukce jsou kvalitní pro můj soubor pacientů a vysvětlují vztahy mezi proměnnými.
- 52 -
4 Seznam použitých zdrojů [1]
Http://www.goldcopd.org/ [online]. 2010 [cit. 2011-08-16]. GOLD - the Global
initiative
for
chronic
Obstructive
Lung
Disease.
Dostupné
z
WWW:
. [2]
WHO.int [online]. 2011 [cit. 2011-08-16]. WHO The top 10 causes of death.
Dostupné z WWW: .
[3]
Lékařské slovníky [online]. 2008 [cit. 2011-08-16]. Velký lékařský slovník On-
Line. Dostupné z WWW: . [4]
České občanské srdužení proti chronicnké obstrukční pilcní nemoci. Světová
strategie diagnostiky, léčby a prevence chronické obstrukční plicní nemoci. Praha : [s.n.], 2007. 164 s. ISBN 80-86587-22-3. [5]
KOZÁKOVÁ,
Demografický
. Demografie [online].
Eliška
informační
portál.
2008
[cit.
Dostupné
2011-08-16].
z
WWW:
. [6]
HINDLS, Richard, et al. Statistika pro ekonomy. Osmé vydání. Praha : [s.n.],
2007. 420 s. ISBN 978-80-86946-43-6. [7]
DOUGHERTY, Christopher. Introduction to Econometrics. Third edition. [s.l.] :
Oxford university press, 2007. 464 s. ISBN 978-0-19-928096-4. [8]
BAŠTA, M. VŠE webhosting [online]. 2011 [cit. 2011-08-16]. Materiál ke
cvičení
ze
Statisitky.
Dostupné
z
WWW:
. [9]
Microsoft corporation. Office.com [online]. 2011 [cit. 2011-08-16]. Přidání
spojnice
trendu.
Dostupné
z
WWW:
help/pridani-spojnice-trendu-do-grafu-HP005198462.aspx>. [10] HLAVENKA, Jiří, et al. Microsoft Excel 2002. Brno : [s.n.], 2004. 202 s. ISBN 80251-0190-8. [11]
ZATLOUKAL, Jaromír. Zdravotnické noviny [online]. 2007 [cit. 2011-08-16].
Chronická
obstrukční
plicní
nemoc. - 53 -
Dostupné
z
WWW:
. [12]
Abeceda zdraví [online]. 2005 [cit. 2011-08-16]. BMI - BODY MASS INDEX.
Dostupné z WWW: .
- 54 -
5 Seznam použitých tabulek Tabulka 1 Typů dat ..........................................................................................................20 Tabulka 2 Demografie a anamnézy .................................................................................25 Tabulka 3 Spirometrických a dalších výsledků ...............................................................26 Tabulka 4 Mortalitních dat ..............................................................................................27 Tabulka 5 Příklad sebraných dat o hospitalizaci .............................................................28 Tabulka 6 Vstupních dat ..................................................................................................29 Tabulka 7 BMI a počtu hospitalizací ...............................................................................30 Tabulka 8 BMI a délky hospitalizací ...............................................................................34 Tabulka 9 BMI a celková délka léčby .............................................................................39 Tabulka 10 Počtu hospitalizací a balíčkoroků .................................................................43 Tabulka 11 Počet balíčkoroků a trvání hospitalizací .......................................................46 Tabulka 12 Počtu balíčkoroků a dnů dožití pacienta od první hospitalizace ..................49
- 55 -
6 Seznam použitých grafů Graf 1 Příklad grafu .........................................................................................................18 Graf 2 Bodový graf BMI a počtu hospitalizací ..............................................................31 Graf 3 Regresní funkce vysvětlující vztah mezi BMI a počtem hospitalizací ................33 Graf 4 Bodový graf BMI a délka hospitalizací ...............................................................34 Graf 5 Regresní funkce vysvětlující BMI a počet dní hospitalizace ...............................38 Graf 6 Bodový graf BMI a absolutní délky léčby ...........................................................39 Graf 7 Regresní funkce BMI k celkové době dožití od první hospitalizace ...................41 Graf 8 Počtu hospitalizací a počtu balíčkoroků...............................................................43 Graf 9 Regresní funkce k počtu balíčkoroků a počtu hospitalizací .................................45 Graf 10 Počtu balíčkoroků a délky trvání hospitalizací ..................................................46 Graf 11 Regresní funkce pro počet balíčkoroků a trvání hospitalizací ...........................48 Graf 12 Přežití pacienta od první hospitalizace a počtu balíčkoroků ..............................49
- 56 -
7 Seznam použitých obrázků Obrázek 1 Vložení grafu .................................................................................................16 Obrázek 2 Přidání spojnice trendu ..................................................................................17 Obrázek 3 Zobrazení rovnice regrese a spolehlivosti R ..................................................17
- 57 -