ˇ – Technick´a univerzita Ostrava VSB Fakulta elektrotechniky a informatiky Katedra informatiky
Zpracov´an´ı softwarov´e datab´aze identifikaˇcn´ıch u´daj˚ u pacient˚ u s malign´ımi mozkov´ymi n´adory pro zjiˇstˇen´ı enviroment´aln´ıch vliv˚ u na v´yskyt onemocnˇen´ı v Moravskoslezsk´em kraji Software development of patients personal data with malignant encephaloms and examination of environmental impact upon illness occurrance within the Moravia-Silesian region
2011
Petr Jaˇskovsk´ y
Prohlaˇsuji, ˇze jsem tuto bakal´ aˇrskou pr´aci vypracoval samostatnˇe. Uvedl jsem vˇsechny liter´arn´ı prameny a publikace, ze kter´ ych jsem ˇcerpal.
V Ostravˇe 6. kvˇetna 2011
.............................
R´ad bych na tomto m´ıstˇe podˇekoval pˇredevˇs´ım RNDr. Pavlu Jahodovi, Ph.D., za veden´ı m´e pr´ace, podporu a rady. D´ ale pak MUDr. V´aclavu Proch´azkovi, Ph.D., a jeho kolektivu za osobn´ı pˇr´ıstup a seri´ ozn´ı jedn´ an´ı.
Abstrakt Ve sv´e bakal´ aˇrsk´e pr´ aci se vˇenuji zpracov´an´ı softwarov´e datab´aze a vytvoˇren´ı programu pro jej´ı statistick´e zpracov´ an´ı. Pro implementaci programu jsem vyuˇzil modern´ı skriptovac´ı programovac´ı jazyk Python 2.6. Program umoˇzn ˇuje naˇcten´ı datab´aze ze souboru *.xls. Pro zjiˇstˇen´ı enviroment´aln´ıch vliv˚ u v´ yskytu onemocnˇen´ı vyuˇz´ıv´ am grafick´e porovn´an´ı relativn´ıch ˇcetnost´ı, χ2 test, χ2 test kontingenˇcn´ı tabulky, test homogenity, mapu pacient˚ u na serveru GoogleMaps. Kl´ıˇ cov´ a slova: Statistick´e zpracov´ an´ı, Python, relativn´ı ˇcetnost, χ2 test, Googlemaps
Abstract My bachelor thesis is devoded to process software database and creating a program for its statistical evaluation. Modern scripting programming language Python 2.6 is used for implementation of the program. Application allows importing *.xls database. For determining the enviromental influences occurence of the sickness the graphical confront of relative frequency, χ2 test, χ2 test pivot table, test of homogenity and GoogleMaps server with pacients map are used. Keywords: Statistical evaluation, Python, relative frequency, χ2 test, Googlemaps
Seznam pouˇ zit´ ych zkratek a symbol˚ u FNO
–
Fakultn´ı nemocnice Ostrava
USB
–
Universal serial bus
MS kraj ˇ CR
– –
Moravskoslezsk´ y kraj ˇ Cesk´ a republika
UML
–
Unified Modeling Language
CT
–
Computed Tomography (V´ ypoˇcetn´ı tomografie)
MRI
–
Magnetic resonance imaging
GUI
–
Graphical user interface
1
Obsah ´ 1 Uvod 1.1
9
Malign´ı mozkov´e n´ adory . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2 Teoretick´ yu ´ vod do pouˇ zit´ ych statistick´ ych metod
13
2.1
Statistika . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2
Pravdˇepodobnost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3
Rozdˇelen´ı pravdˇepodobnosti . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4
Testov´ an´ı hypot´ez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3 Statistick´ e testy
25
3.1
Ch´ı kvadr´ at test dobr´e shody . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2
Ch´ı kvadr´ at test nez´ avislosti v kontingenˇcn´ı tabulce . . . . . . . . . . . . . 26
3.3
Test homogenity dvou binomick´ ych rozdˇelen´ı . . . . . . . . . . . . . . . . . 27
4 Zpracov´ an´ı dat
29
4.1
Datab´ aze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.2
Exploraˇcn´ı anal´ yza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5 Softwarov´ a aplikace
39
5.1
Poˇzadavky kladen´e na program . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.2
O programu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.3
Pr˚ uvodce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.4
Porovn´ an´ı relativn´ıch ˇcetnost´ı . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.5
Aplikace χ2 testu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.6
Aplikace χ2 testu kontingenˇcn´ı tabulky . . . . . . . . . . . . . . . . . . . . . 49
5.7
Geografick´e rozm´ıstˇen´ı pacient˚ u . . . . . . . . . . . . . . . . . . . . . . . . . 52
6 Z´ avˇ er
53
7 Literatura
55
Pˇ r´ılohy
56
A Uk´ azky datab´ aze, diagramy a mapy
58
2
3
Seznam tabulek 1
Kontingenˇcn´ı tabulka . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2
Tabulka margin´ aln´ıch ˇcetnost´ı nij (ai , bi - ˇcetnosti mutac´ı) . . . . . . . . . . 50
3
Tabulka oˇcek´ avan´ ych ˇcetnost´ı n∗ij (ai , bi - ˇcetnosti mutac´ı) . . . . . . . . . . 50
4
5
Seznam obr´ azk˚ u 1
Hustota a distribuˇcn´ı funkce exponenci´aln´ı n´ahodn´e veliˇciny . . . . . . . . . 18
2
Hustota pravdˇepodobnosti a distribuˇcn´ı funkce norm´aln´ıho rozdˇelen´ı . . . . 19
3
Grafy hustoty ch´ı-kvadr´ at rozdˇelen´ı pro r˚ uzn´e stupnˇe volnosti . . . . . . . . 20
4
Hled´ an´ı kvantilu ch´ı-kvadr´ at rozdˇelen´ı . . . . . . . . . . . . . . . . . . . . . 21
5
Graf hustoty pravdˇepodobnosti studentova rozdˇelen´ı . . . . . . . . . . . . . 22
6
V´ yseˇcov´ y graf - muˇzi vs. ˇzeny . . . . . . . . . . . . . . . . . . . . . . . . . . 30
7
Krabicov´ y graf - vˇek pacient˚ u . . . . . . . . . . . . . . . . . . . . . . . . . . 31
8
V´ yseˇcov´ y graf - vˇek pacient˚ u . . . . . . . . . . . . . . . . . . . . . . . . . . 31
9
Graf kumulativn´ıch relativn´ıch ˇcetnost´ı vˇekov´ ych skupin pacient˚ u . . . . . . 32
10
Poˇcet pacient˚ u na 1000 obyvatel . . . . . . . . . . . . . . . . . . . . . . . . 32
11
Absolutn´ı ˇcetnosti pacient˚ u v Moravskoslezsk´em kraji (ArcGIS) . . . . . . . 33
12
Relativn´ı ˇcetnosti pacient˚ u v Moravskoslezsk´em kraji (ArcGIS) . . . . . . . 34
13
Absolutn´ı poˇcet pacient˚ u v mˇestsk´ ych obvodech Ostravy (ArcGIS) . . . . . 35
14
Relativn´ı poˇcet pacient˚ u v mˇestsk´ ych obvodech Ostravy (ArcGIS) . . . . . 36
15
Diagn´ ozy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
16
Okno programu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
17
N´ apovˇeda programu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
18
Hlavn´ı okno programu pˇri pouˇzit´ı testu . . . . . . . . . . . . . . . . . . . . 42
19
V´ ypis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
20
Grafick´e porovn´ an´ı relativn´ıch ˇcetnost´ı Mutace X Obyvatel´e . . . . . . . . . 44
21
Grafick´e porovn´ an´ı relativn´ıch ˇcetnost´ı Mutace X Mutace . . . . . . . . . . 45
22
V´ ystup testu homogenity . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
23
V´ ybˇer mutac´ı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
24
Proces v´ ykonu programu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
25
Datab´ aze - cytogenetika . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
26
Datab´ aze - regiony . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
27
Mapa rozm´ıstˇen´ı pacient˚ u . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6
7
Seznam v´ ypis˚ u zdrojov´ eho k´ odu 1
Metoda v´ ypoˇctu hodnoty χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2
Numerick´ a integrace obd´eln´ıkov´ ym pravidlem . . . . . . . . . . . . . . . . . 49
3
Metoda v´ ypoˇctu χ2 testu nez´avislosti v kontingenˇcn´ı tabulce . . . . . . . . 51
8
9
1
´ Uvod
Tato bakal´ aˇrsk´ a pr´ ace vznikla ve spolupr´aci s Fakultn´ı nemocnic´ı Ostrava (d´ale jen FNO) a panem MUDr. V´ aclavem Proch´ azkou, Ph.D., n´amˇestkem ˇreditele FNO pro vˇedu a v´ yzkum a vedouc´ı angiolinky FNO. Hlavn´ım pˇredmˇetem bylo vytvoˇren´ı aplikace, kter´a statisticky zpracuje softwarovou datab´ azi identifikaˇcn´ıch u ´daj˚ u pacient˚ u s malign´ımi mozkov´ ymi n´adory. C´ılem bylo zjistit, zda mozkov´e n´adory vyskytuj´ıc´ı se u pacient˚ u FNO souvis´ı s enviroment´ aln´ımi vlivy prostˇred´ı, pˇrednˇe s velmi ˇcast´ ym a velmi vysok´ ym v´ yskytem prachov´ ych ˇc´astic, ˇci jin´ ych ˇskodliv´ ych neˇcistot v ovzduˇs´ı, ˇcasto pˇrevyˇsuj´ıc´ı z´akonn´e normy v nˇekter´ ych oblastech Moravskoslezsk´eho kraje. Jelikoˇz dosud neexistovala jiˇz zm´ınˇen´a softwarov´a datab´aze podobn´eho charakteru, m´ ym prvn´ım u ´kolem ji bylo vytvoˇrit. Vznikala postupn´ ym studov´an´ım a pˇrepisov´an´ım cytogenetick´ ych vyˇsetˇren´ı pacient˚ u FNO. Dalˇs´ı d˚ uleˇzit´e u ´daje o pacientech, jako mˇesto ulice ˇci souˇcasn´e nebo b´ yval´e zamˇestn´an´ı, poskytla datab´aze CareCentra. V´ ysledkem je soubor v programu MS Excel, obsahuj´ıc´ı u ´daje potˇrebn´e pro statistick´e testov´an´ı a anal´ yzy. Poˇcet pacient˚ u neust´ ale vzr˚ ust´ a a jsou nutn´e aktualizace pro pˇresnˇejˇs´ı testov´an´ı, jelikoˇz v souˇcasnosti je tento soubor nedostateˇcnˇe velk´ y pro pouˇzit´ı nˇekter´ ych statistick´ ych metod. Pˇri vytv´ aˇren´ı aplikace jsem narazil v 1. f´azi na probl´em s v´ ybˇerem programovac´ıho jazyka. Nab´ızely se mi celkem ˇctyˇri moˇznosti. • Prvn´ı a celkem l´ akav´ a moˇznost byl matematick´ y program Matlab, kter´ y poskytuje vysokou podporu matematick´ ych operac´ı a pr´aci s velk´ ym mnoˇzstv´ım dat. Byla by to ide´aln´ı volba, ovˇsem chtˇel jsem, aby tento program mohli lid´e otevˇrenˇe vyuˇz´ıvat, bez nutnosti n´ akupu drah´e licence Matlabu a objemn´e instalace. Hledal jsem moˇznosti exportu programu do samostatn´eho *.exe pro spouˇstˇen´ı na jin´ ych poˇc´ıtaˇc´ıch. Je to moˇzn´e, ovˇsem v´ ysledn´ y program by ve sv´em v´ ysledku mohl m´ıt i nepˇrijateln´ ych nˇekolik set megabajt˚ u. • Druh´ ym jazykem se jevil programovac´ı jazyk od spoleˇcnosti Microsoft Visual Basic. Tento jazyk m´ a implementovan´e knihovny napˇr´ıklad pro vykreslen´ı graf˚ u a histogram˚ u. M´e mal´e zkuˇsenosti s t´ımto jazykem mˇe odradily od jeho pouˇzit´ı. • Tˇret´ı volbou byl velmi rozˇs´ıˇren´ y jazyk Java. Tento jazyk nen´ı zrovna vhodn´ y pro pouˇzit´ı s velk´ ym mnoˇzstv´ım dat a pr´aci s maticemi obsahuj´ıc´ı r˚ uzn´e datov´e typy.
10
ˇ • Ctvrtou moˇznost´ı byl skriptovac´ı programovac´ı jazyk Python, kter´ y se vyznaˇcuje charakteristick´ ymi rysy jako je snadnost pouˇz´ıv´an´ı a obdivuhodn´e moˇznosti, jak´e nenab´ız´ı ˇz´ adn´ y z dnes rozˇs´ıˇren´ ych jazyk˚ u. Tento jazyk umoˇzn ˇuje daleko rychlejˇs´ı vytv´ aˇren´ı aplikac´ı neˇz pˇri programov´an´ı v tradiˇcn´ıch jazyc´ıch jako jsou C, C++ nebo Java. Nav´ıc jeho v´ yvoj je otevˇren´ y a je zdarma. Pˇri programov´an´ı jsem ocenil zejm´ena to, ˇze v Pythonu mohou b´ yt do libovoln´ ych promˇenn´ ych uloˇzeny r˚ uzn´e datov´e typy a kter´ekoliv datov´e objekty mohou b´ yt zaps´any nebo naˇcteny ze souboru programem o pouh´ ych dvou ˇr´adc´ıch programov´eho k´odu. Dalˇs´ı v´ yhodou je moˇzn´ y export programu do spustiteln´eho *.exe souboru. Odpad´a tedy nutnost instalace v´ yvojov´eho prostˇred´ı na poˇc´ıtaˇci uˇzivatele. Jedin´a nev´ yhoda spoˇc´ıvala v tom, ˇze jsem musel vˇsechny algoritmy pro statistick´e testy a pro grafickou konfrontaci osobnˇe vymyslet a naimplementovat. Motivac´ı pro v´ ybˇer t´eto bakal´ aˇrsk´e pr´ace pro mˇe byla zejm´ena snaha vytvoˇrit nˇeco uˇziteˇcn´eho a potˇrebn´eho, nˇeco co nebudu ps´at jen pro sebe, ale bude pˇrin´aˇset v´ ysledky pro ostatn´ı. Dalˇs´ım impulsem pro volbu byla tak´e osobn´ı snaha nauˇcit se zach´azet s programovac´ım jazykem Python a d´ ale tak´e rozˇs´ıˇren´ı si vˇedomost´ı v oblasti statistiky. V´ ysledkem je dle m´eho n´ azoru na prvn´ı pohled jednoduch´ y program, prostˇrednictv´ım kter´eho lze naˇc´ıst datab´ azi, n´ aslednˇe vybrat dvˇe statistick´e skupiny a vyuˇz´ıt nˇekter´ y z nˇekolika druh˚ u jejich zpracov´ an´ı: • grafick´e porovn´ an´ı relativn´ıch ˇcetnost´ı • χ2 test • χ2 test kontingenˇcn´ı tabulky • test homogenity • geografick´e rozm´ıstˇen´ı pacient˚ u na mapov´em serveru od spoleˇcnosti Google
1.1
Malign´ı mozkov´ e n´ adory
Obecnˇe se n´ adory dˇel´ı na malign´ı a benign´ı, ˇcili zhoubn´e a nezhoubn´e. Nejproblematiˇctˇejˇs´ı jsou s ohledem na ˇzivot, n´ adory malign´ı. Ovˇsem i benign´ı n´adory sv´ ym r˚ ustem dislokuj´ı mozkovou tk´ an ˇ, takˇze i typicky nezhoubn´ y n´ador m˚ uˇze postiˇzen´eho usmrtit vlivem vzr˚ ustaj´ıc´ıho nitrolebn´ıho tlaku (nitrolebn´ı hypertenz´ı). Ve vztahu k m´ıstu vzniku n´ador˚ u rozliˇsujeme n´ adory prim´ arn´ı a sekund´arn´ı. N´adory prim´arn´ı jsou ty, kter´e vznikaj´ı pˇr´ımo z pˇr´ısluˇsn´ ych tk´ an´ı. Sekund´ arn´ı n´ adory vznikaj´ı z metast´az jin´ ych n´ador˚ u at’ uˇz mozku
11
nebo dalˇs´ıch org´ an˚ u tˇela. Mezi nejˇcastˇejˇs´ı n´ adory centr´ aln´ı nervov´e soustavy patˇr´ı tzv. dif´ uzn´ı gliomy. Jde o skupinu tumor˚ u r˚ uzn´ ych histologick´ ych forem a r˚ uzn´ ych stupˇ n˚ u malignity, kter´e se liˇs´ı odezvou na l´eˇcbu a progn´ ozou onemocnˇen´ı. Lokalizace tˇechto n´ador˚ u v mozku je r˚ uznorod´a, nejˇcastˇeji vˇsak v mozkov´ ych hemisf´er´ ach. Patˇr´ı zde jednak tzv. astrocytomy, kter´e m˚ uˇzeme dˇelit na astrocytomy n´ızk´eho stupnˇe, anaplastick´ y astrocytom, prim´arn´ı a sekund´arn´ı glioblastomy. D´ ale sem patˇr´ı oligodendrogliomy a oligoastrocytomy. Pˇri vyˇsetˇren´ıch lze pozorovat loˇziskov´ y neurologick´ y n´alez a podle lokalizace se u nemocn´ ych mohou vyskytnou poruchy hybnosti, ˇreˇci, psychiky aj. Jedn´ım z pˇr´ıznak˚ u m˚ uˇze b´ yt tak´e epileptick´ y z´ achvat. L´eˇcen´ı dif´ uzn´ıch gliom˚ u je problematick´e a vzhledem k infiltrativn´ımu charakteru r˚ ustu, nem˚ uˇze b´ yt jejich chirurgick´e odstranˇen´ı nikdy radik´aln´ı. U tumor˚ u niˇzˇs´ıch stupˇ n˚ u doch´ az´ı ˇcasto k relapsu a progresi onemocnˇen´ı. Literatura uv´ad´ı aˇz 80% mortalitu nemocn´ ych s dif´ uzn´ımi gliomy vyˇsˇs´ıch stupˇ n˚ u v prvn´ım roce stanoven´ı diagn´ozy. Dosud nebyl nalezen optim´ aln´ı l´eˇcebn´ y postup, kter´ y by z´asadn´ım zp˚ usobem ovlivnil osud nemocn´ ych. Pˇredpokl´ ad´ a se vˇsak, ˇze ta spr´avn´a cesta vede skrze terapii zaloˇzenou na znalostech genetick´ ych alterac´ı u jednotliv´ ych n´ador˚ u. U dif´ uzn´ıch gliom˚ u je ˇcasto popisov´ana delece (mutaˇcn´ı poˇskozen´ı) genu p53 lokalizovan´eho na kr´atk´ ych ramenech chromosomu 17. Gen p53 patˇr´ı do skupiny tumorsupresorov´ ych gen˚ u a je z´aroveˇ n nejˇcastˇeji mutovan´ ym genem u vˇsech typ˚ u n´ adorov´ ych onemocnˇen´ı. Jeho mutace nach´az´ıme ve v´ıce neˇz polovinˇe n´ arod˚ u. Jednou ze skupin n´ ador˚ u odvozen´ ych z bunˇek gli´aln´ı ˇrady jsou astrocytomy. Pˇredstavuj´ı pˇribliˇznˇe 40% nitrolebn´ıch tumor˚ u. Z CT a MRI vyˇsetˇren´ı lze odhadnout stupeˇ n malignity. Literatura uv´ ad´ı pr˚ umˇernou d´elku pˇreˇzit´ı 53 mˇes´ıc˚ u. Glioblastomy jsou jedny z nejmalignˇejˇs´ıch forem gli´ aln´ıch tumor˚ u s pr˚ umˇernou d´elkou pˇreˇzit´ı 12 mˇes´ıc˚ u. Ve vˇetˇsinˇe pˇr´ıpad˚ u vznikaj´ı de novo, bez v´ yskytu pˇredchoz´ıch n´adorov´ ych l´ez´ı nebo se vyv´ıj´ı pozvolnˇe, malign´ı progres´ı z astocytom˚ u niˇzˇs´ıho stupnˇe nebo anaplastick´eho astrocytomu (sekund´arn´ı glioblastomy). Pro prim´ arn´ı glioblastomy je charakteristick´a amplifikace genu pro transmembr´ anov´ y receptor EGFR (Epidermal Growth Factor Receptor). K amplifikaci tohoto genu doch´ az´ı v n´ adorov´ ych buˇ nk´ach asi 30-60% nemocn´ ych s prim´arn´ımi glioblastomy. Souˇcasnˇe s touto mutac´ı doch´ az´ı ke kumulaci dalˇs´ıch genetick´ ych alterac´ı, vˇetˇsinou v tumorsupresorov´ ych genech vˇcetnˇe zmiˇ novan´eho genu p53. Pˇribliˇznˇe 4% vˇsech tumor˚ u mozku patˇr´ı oligodendrogliom˚ um, lokalizovan´ ych hlavnˇe ve front´aln´ım laloku. V 50-80% se projevuj´ı epileptick´ ymi z´achvaty. Terapie je chirurgick´a a co
12
nejradik´ alnˇejˇs´ı. Ependyomy se vyskytuj´ı po cel´e d´elce nervov´e osy v komorov´em prostoru. Nejˇcastˇeji ve 4. komoˇre, hlavnˇe u dˇet´ı. Je benign´ı, semimalign´ı a existuje i anaplastick´a forma. Hlavn´ı diagnostick´e metody pro urˇcen´ı tˇechto n´ador˚ u jsou histologick´a a imunohistochemick´ a vyˇsetˇren´ı. S rozvojem modern´ıch technik se k tˇemto z´akladn´ım vyˇsetˇren´ım pˇridaly molekul´ arnˇe-biologick´e metody, kter´e slouˇz´ı k vyˇsetˇren´ı mutac´ı tˇechto n´ador˚ u. Detekce chromosomov´e aberace v buˇ nk´ach n´ador˚ u se prov´ad´ı bˇeˇzn´ ymi molekul´arn´ımi a cytogenetick´ ymi metodami a je technicky i finanˇcnˇe velmi n´aroˇcn´a. Pˇri zpracov´an´ı n´adorov´e tk´anˇe vznik´ a ˇrada obt´ıˇz´ı, kter´e se daˇr´ı pˇreklenout aˇz v posledn´ıch letech za pomoc´ı modern´ıch molekul´ arn´ıch a cytogenetick´ ych technik. D´ıky tomu se zaˇc´ın´a rozˇsiˇrovat spektrum vyˇsetˇrovan´ ych malign´ıch n´ ador˚ u. Mezi ˇcasto pouˇz´ıvan´e metody v patologii patˇr´ı in situ hybridizace, elektrofor´eza, amplifikaˇcn´ı metody (PCR- polymer´azov´a ˇretˇezov´a reakce), sekvenov´ an´ı, microarray anal´ yzy apod. Jednou z tˇechto technik je metoda fluorescenˇcn´ı in situ hybridizace I-FISH. Jedn´a se o rychlou, citlivou a vysoce specifickou metodu, kter´a pˇri pouˇzit´ı vhodn´ ych DNA sond umoˇzn ˇuje detekovat numerick´e a strukturn´ı chromosomov´e aberace v nedˇel´ıc´ıch se j´adrech interf´azn´ıch buˇ nˇek. Metoda CGH - komparativn´ı genomov´a hybridizace se vyuˇz´ıv´a k detekci poˇcetn´ıch odchylek v genomu n´ adorov´ ych buˇ nek. Detekuje ztr´aty nebo zmnoˇzen´ı genetick´eho materi´alu a urˇcuje relativn´ı poˇcet kopi´ı jednotliv´ ych chromosom˚ u, gen˚ u nebo DNA sekvenc´ı. Tyto nov´e metody anal´ yzy genomu jsou tedy doplˇ nkem v diagnostice a pomohou n´am z´ıskat informace, kter´e dan´e onemocnˇen´ı v´ıce specifikuj´ı a upˇresn´ı. Vyˇsetˇren´ı mutac´ı je d˚ uleˇzit´ ym prognostick´ ym faktorem, kter´ y je podstatn´ y pro odhad dalˇs´ıho pr˚ ubˇehu onemocnˇen´ı a pro pˇr´ıpadn´e zah´ ajen´ı adekv´atn´ı l´eˇcby. [11, 12]
13
2
Teoretick´ y u ´ vod do pouˇ zit´ ych statistick´ ych metod
2.1
Statistika
Statistika je vˇedn´ı obor, zab´ yvaj´ıc´ı se sbˇerem, zpracov´an´ım a metodami vyhodnocen´ı dat. C´ılem statistick´eho zpracov´ an´ı dat je z´ısk´an´ı informace o vlastnostech, povaze a z´akonitostech projevuj´ıc´ıch se na pozorovan´ ych datech.
2.2
Pravdˇ epodobnost
Pod pojmem pravdˇepodobnost, intuitivnˇe ch´apeme ˇc´ıslo, kter´e ud´av´a nakolik m˚ uˇzeme dan´ y jev oˇcek´ avat. Toto ˇc´ıslo n´ aleˇz´ı do uzavˇren´eho intervalu <0, 1>, kde nula znamen´a, ˇze dan´ y jev nem˚ uˇze nastat a jedna, je jev jist´ y. Vˇetˇsinou se v praxi setk´av´ame s procentu´aln´ım vyj´adˇren´ım pravdˇepodobnosti, kde je toto ˇc´ıslo vyn´asobeno stem.
Definice 2.1 Necht’ Ω je mnoˇzina. Nazveme ji prostorem element´arn´ıch jev˚ u a jej´ı prvky ’ naz´yv´ ame element´ arn´ımi jevy. D´ ale necht A je syst´em podmnoˇzin mnoˇziny Ω, nazveme jej σ - algebrou jev˚ u, splˇ nuj´ıc´ı podm´ınky • Jestliˇze A1 , A2 , · · · ∈ A, potom
S∞
i=1 Ai
∈ A,
• Jestliˇze A ∈ A, potom Ω − A ∈ A. Pravdˇepodobnost´ı na prostoru element´ arn´ıch jev˚ u Ω se σ - algebrou jev˚ u A nazveme zobrazen´ı P : A → R splˇ nuj´ıc´ı podm´ınky • Pro kaˇzd´e A ∈ A plat´ı P (A) ≥ 0, • P (Ω) = 1, S • Jestliˇze A1 , A2 , · · · ∈ A jsou po dvou disjunktn´ı mnoˇziny, potom P ( ∞ i=1 Ai ) = P∞ i=1 P (Ai ). Uspoˇr´ adanou trojici (Ω, A, P ) nazveme pravdˇepodobnostn´ım prostorem.
14
2.3
Rozdˇ elen´ı pravdˇ epodobnosti
2.3.1
N´ ahodn´ a veliˇ cina
N´ahodn´ a veliˇcina je promˇenn´ a, jej´ıˇz hodnota je jednoznaˇcnˇe urˇcena v´ ysledkem n´ahodn´eho pokusu. N´ ahodn´ a veliˇcina pˇriˇrazuje v´ ysledk˚ um n´ahodn´eho pokusu (n´ahodn´ ym jev˚ um) re´aln´e ˇc´ıslo. Pˇ r´ıklad 2.1 Rozd´ıl mezi n´ ahodnou veliˇcinou a n´ahodn´ ym jevem: Provedeme pokus hodem dvˇemi mincemi. Mnoˇzina vˇsech moˇzn´ ych v´ ysledk˚ u n´ahodn´eho pokusu je Ω = {RR, LL, RL, LR}, skl´ad´a se tedy ze ˇctyˇr element´ arn´ıch n´ahodn´ ych jev˚ u. N´ahodn´a veliˇcina X je definov´ana jako X(RR)=0, X(LL)=1, X(RL)=2, X(LR)=3.
2.3.2
Distribuˇ cn´ı funkce a jej´ı graf
Jedn´ım z prostˇredk˚ u pro popis n´ahodn´ı veliˇciny je distribuˇcn´ı funkce, kter´a kaˇzd´emu re´aln´emu ˇc´ıslu pˇriˇrazuje pravdˇepodobnost, ˇze n´ahodn´a veliˇcina nabude hodnoty menˇs´ı nebo rovn´e neˇz toto ˇc´ıslo. Distribuˇcn´ı funkci n´ahodn´e veliˇciny X je funkce dan´a pˇredpisem F (x) = P (X ≤ x). Kaˇzd´ a distribuˇcn´ı funkce m´ a tyto vlastnosti: • Obor hodnot distribuˇcn´ı funkce n´aleˇz´ı intervalu < 0, 1 >. • Distribuˇcn´ı funkce je neklesaj´ıc´ı, tj. pro vˇsechna x2 > x1 plat´ı: F (x2 ≥ x1 ). • Pro kaˇzdou distribuˇcn´ı funkci plat´ı: lim F (x) = 0 lim F (x) = 1
x→−∞
x→+∞
• M´a nejv´ yˇse spoˇcetnˇe mnoho bod˚ u nespojitosti a je zprava spojit´a. • Distribuˇcn´ı funkce n´ ahodn´e veliˇciny spojit´eho typu je spojit´a a distribuˇcn´ı funkce n´ahodn´e veliˇciny diskr´etn´ıho typu je nespojit´a. [4]
15
2.3.3
Diskr´ etn´ı rozdˇ elen´ı pravdˇ epodobnosti
Rozdˇelen´ı n´ ahodn´e veliˇciny X je pˇredpis, kter´ ym charakterizujeme pravdˇepodobnost jev˚ u, jeˇz lze touto veliˇcinou popsat. U diskr´etn´ı veliˇciny je rozdˇelen´ı pravdˇepodobnosti d´ano pravdˇepodobnostn´ı funkc´ı. ˇ Definice 2.2 Rekneme, ˇze n´ ahodn´ a veliˇcina X m´ a diskr´etn´ı rozdˇelen´ı pravdˇepodobnosti pr´ avˇe tehdy, kdyˇz nab´yv´ a spoˇcetnˇe mnoha hodnot {x1 , x2 ...} tak, ˇze P (X = xi ) ≥ 0 a P∞ yv´ ame pravdˇepodobnostn´ı funkc´ı i=1 P (X = xi ) = 1. Funkci P (X = xi ) = P (xi ) naz´ n´ ahodn´e veliˇciny X. [8] V t´eto kapitole shrnu nejˇcastˇeji pouˇz´ıvan´e typy diskr´etn´ıho rozdˇelen´ı veliˇciny. • Binomick´ e rozdˇ elen´ı Definice 2.3 N´ ahodn´ a veliˇcina s Binomick´ym rozdˇelen´ım Bi(n,p), kde n je pˇrirozen´e ˇc´ıslo (poˇcet pokus˚ u), p je re´ aln´e ˇc´ıslo (pravdˇepodobnost u ´spˇeˇsnosti v kaˇzd´em pokuse), 0 < p < 1 m´ a pravdˇepodobnostn´ı funkci danou pˇredpisem n x P (X = x) = p (1 − p)n−x , x = 0, 1, ..., n x [3, 10] Pˇredpokl´ adejme, ˇze n´ ahodn´ y pokus, jehoˇz v´ ysledk˚ um je pˇriˇrazena n´ahodn´a veliˇcina, opakujeme n-kr´ at za sebou. Jednotliv´e pokusy jsou vz´ajemnˇe nez´avisl´e, tedy ˇz´adn´ y pokus neovlivn´ı pokus jin´ y. V z´avislosti na u ´spˇeˇsnosti nebo ne´ uspˇeˇsnosti pˇriˇrad´ıme v´ ysledku kaˇzd´eho pokusu ˇc´ıslo 1 (s pravdˇepodobnost´ı p) nebo 0 (s pravdˇepodobnost´ı ˇ e n nez´ 1-p). Radˇ avisl´ ych pokus˚ u pak pˇriˇrad´ıme ˇc´ıslo urˇcen´e celkov´ ym poˇctem u ´spˇeˇsn´ ych pokus˚ u v ˇradˇe. [3] Konkr´etn´ım pˇr´ıkladem n´ ahodn´e veliˇciny X s binomick´ ym rozdˇelen´ım pravdˇepodobnosti m˚ uˇze b´ yt n´ ahodn´ a veliˇcina zkonstruovan´a n´asleduj´ıc´ım zp˚ usobem: Pˇ r´ıklad 2.2 V osud´ı je 100 kuliˇcek z toho 80 b´ıl´ ych a 20 ˇcern´ ych. Vyb´ır´ame tˇrikr´at, pokaˇzd´e 1 kuliˇcku a pot´e ji zase vr´ at´ıme zpˇet. Urˇcete pravdˇepodobnost, ˇze vˇsechny 3 kuliˇcky budou b´ıl´e.
16
ˇ sen´ı: Hled´ Reˇ ame pravdˇepodobnost P (X = 3) pro n´ahodnou veliˇcinu s binomick´ ym rozdˇelen´ım 3 Bi(n = 3, p = 0.8) : P (X = 3) = 0.83 0.23−3 = 0.512 3
• Alternativn´ı rozdˇ elen´ı Definice 2.4 Rozdˇelen´ı Bi(1,p), tedy pro n=1 a 0 < p < 1, se naz´yv´ a alternativn´ı rozdˇelen´ı, kde parametr p oznaˇcuje pravdˇepodobnost u ´spˇeˇsnosti pokusu. P (X = 0) = 1 − p, P (X = 1) = p Podobnˇe jako u binomick´eho rozdˇelen´ı u nˇekter´ ych pokus˚ u rozliˇsujeme pouze dva moˇzn´e v´ ysledky - pokus je u ´spˇeˇsn´ y (1) nebo ne´ uspˇeˇsn´ y (0). Napˇr´ıklad pˇri h´azen´ı ’ minc´ı m˚ uˇze padnout bud rub nebo l´ıc. [10] • Hypergeometrick´ e rozdˇ elen´ı H(N, n,
M N)
Definice 2.5 N´ ahodn´ a veliˇcina X, urˇcen´ a poˇctem prvk˚ u s vlastnost´ı V, vybran´ych z celkov´eho poˇctu N prvk˚ u, poˇctem prvk˚ u se sledovanou vlastnost´ı M, poˇctem n´ ahodnˇe vybran´ych prvk˚ u n, s oborem hodnot x=max(0, M-N+n), .., min(M,n), jej´ıˇz pravdˇepodobnostn´ı funkce m´ a tvar P (X = x) =
M x
N −M n−x N n
Pˇredpokl´ adejme, ˇze n´ ahodn´ y pokus, jehoˇz v´ ysledk˚ um je pˇriˇrazena n´ahodn´a veliˇcina, opakujeme n-kr´ at za sebou. Jednotliv´e pokusy jsou vz´ajemnˇe z´avisl´e, tedy pokusy jsou ovlivnˇeny pokusy pˇredch´azej´ıc´ımi. [3, 7] Pˇ r´ıklad 2.3 ˇ ste pˇr´ıklad 2.1 s t´ım rozd´ılem, ˇze kuliˇcky nevrac´ıme zpˇet do z´akladn´ıho osud´ı. Reˇ
17
ˇ sen´ı: N´ Reˇ ahodn´ a veliˇcina X v tomto pˇr´ıpadˇe vykazuje hypergeometrick´e rozdˇelen´ı pravdˇepodobnosti H(N=100, n=3,
M N=
0.8), pro pravdˇepodobnostn´ı funkci
plat´ı 80 3
P (X = 3) =
100−80 3−3 100 3
= 0.508
• Poissonovo rozdˇ elen´ı Po(λ) Definice 2.6 N´ ahodn´ a veliˇcina X, m´ a Poissonovo rozdˇelen´ı Po(λ), kde λ je re´ aln´e ˇc´ıslo a λ > 0, pr´ avˇe kdyˇz jej´ı pravdˇepodobnostn´ı funkce je d´ ana pˇredpisem P (X = x) =
λx −λ e , x = 0, 1, ... x!
Poissonovo rozdˇelen´ı je limitn´ı pˇr´ıpad binomick´eho rozdˇelen´ı, ve kter´em se poˇcet pokus˚ u bl´ıˇz´ı k nekoneˇcnu a parametr p (pravdˇepodobnost u ´spˇechu jednoho pokusu) se bl´ıˇz´ı k nule. Poissonovsk´ ymi jevy jsou ty, kter´e splˇ nuj´ı n´asleduj´ıc´ı podm´ınky: – Zn´ ame pr˚ umˇern´ y poˇcet v´ yskyt˚ u zkouman´eho jevu v dan´em u ´seku jednotkov´e d´elky - oznaˇcme ho λ. – Dan´ y jednotkov´ yu ´sek lze rozdˇelit na n d´ılˇc´ıch u ´sek˚ u velikosti 4t, pˇriˇcemˇz plat´ı ∗ pravdˇepodobnost, ˇze v jednom d´ılˇc´ım u ´seku 4t nastane v´ıce neˇz jeden jev je zanedbateln´ a, ∗ pravdˇepodobnost v´ yskytu jevu v d´ılˇc´ım u ´seku d´elky l je pˇr´ımo u ´mˇern´a velikosti tohoto u ´seku a je ve vˇsech u ´sec´ıch stejn´e velikosti stejn´a, ∗ v´ yskyty jev˚ u v r˚ uzn´ ych d´ılˇc´ıch u ´sec´ıch jsou na sobˇe nez´avisl´e. [3, 7, 10] Pˇ r´ıklad 2.4 Ve firmˇe vyr´ abˇej´ıc´ı USB flash disky vyrob´ı vadn´ y disk s pravdˇepodobnost´ı 0.05. Jak´a je pravdˇepodobnost, ˇze v z´ asilce 100 disk˚ u bude 6 vadn´ ych? ˇ sen´ı: Aproximaci pomoc´ı Poissonova rozdˇelen´ı lze pouˇz´ıt, protoˇze n > 30 a Reˇ p ∈<0,1>. Plat´ı tedy λ = 5, tedy pravdˇepodobnostn´ı funkce pro x = 6 je P (X = 6) =
56 −5 e = 0.1462 6!
18
Srovnejme s pˇresn´ ym ˇreˇsen´ım pomoc´ı Binomick´eho rozdˇelen´ı pravdˇepodobnosti, kde P (X = 6) = 0.1500.
2.3.4
Spojit´ e rozdˇ elen´ı pravdˇ epodobnosti
Jestliˇze n´ ahodn´ a veliˇcina m˚ uˇze nab´ yt vˇsech hodnot z urˇcit´eho intervalu, jedn´a se o n´ahodnou veliˇcinu se spojit´ ym rozdˇelen´ım. Rozdˇelen´ı spojit´e n´ahodn´e veliˇciny je d´ano distribuˇcn´ı funkc´ı nebo hustotou pravdˇepodobnosti. ˇ Definice 2.7 Rekneme, ˇze n´ ahodn´ a veliˇcina X m´ a spojit´e rozdˇelen´ı pravdˇepodobnosti pr´ avˇe tehdy, m´ a-li spojitou distribuˇcn´ı funkci. V t´eto kapitole pˇredstav´ım pˇrehled nˇekter´ ych spojit´ ych rozdˇelen´ı n´ahodn´e veliˇciny. • Exponenci´ aln´ı rozdˇ elen´ı Exponenci´ aln´ı rozdˇelen´ı s parametrem λ > 0, je spojit´e rozdˇelen´ı na mnoˇzinˇe kladn´ ych ˇc´ısel s distribuˇcn´ı funkc´ı
1 − e−λx , F (x) = 0,
x>0, jinak.
tj. s hustotou λe−λx , f (x) = 0,
x>0, jinak.
Obr´ azek 1: Hustota a distribuˇcn´ı funkce exponenci´aln´ı n´ahodn´e veliˇciny
19
Grafy tˇechto funkc´ı m˚ uˇzete vidˇet na obr´azku ˇc.1. [7] • Norm´ aln´ı (Gaussovo) rozdˇ elen´ı Norm´ aln´ı neboli Gaussovo rozdˇelen´ı se vyuˇz´ıv´a zejm´ena pˇri velk´em mnoˇzstv´ı n´ahodn´ ych jev˚ u v ekonomii, technice nebo pˇr´ıtodn´ıch vˇed´ach. T´ımto rozdˇelen´ım m˚ uˇzeme popisovat napˇr. odchylku nerovnosti plechu od poˇzadovan´e hodnoty, chybu meˇren´ı a jin´e. B´ yv´a tak´e oznaˇcov´ ano jako z´ akon chyb. Norm´aln´ı rozdˇelen´ı m´a dva parametry: µ stˇredn´ı hodnotu, charakterizuj´ıc´ı polohu tohoto rozdˇelen´ı a σ 2 - rozptyl, charakterizuj´ıc´ı rozpt´ ylen´ı hodnot n´ ahodn´e veliˇciny kolem stˇredn´ı hodnoty. Funkce hustoty pravdˇepodobnosti:
f (x) = √
1 2πσ 2
e
−(x−µ)2 2σ 2
,x ∈ R
Obr´azek 2: Hustota pravdˇepodobnosti a distribuˇcn´ı funkce norm´aln´ıho rozdˇelen´ı Grafy hustoty pravdˇepodobnosti a distribuˇcn´ı funkce norm´aln´ıho rozdˇelen´ı jsou zn´azornˇeny na obr´ azku ˇc.2. Graf hustoty pravdˇepodobnosti n´ahodn´e veliˇciny s norm´aln´ım rozdˇelen´ım se naz´ yv´ a Gaussova kˇrivka. Distribuˇcn´ı funkce (tak´e viz. obr´azek ˇc.2):
F (x) = √
1 2πσ 2
Z
x
e
−(x−µ)2 2σ 2
,x ∈ R
−∞
[7, 8]
20
• Ch´ı-kvadr´ at rozdˇ elen´ı Hustota rozdˇelen´ı χ2 (ch´ı-kvadr´at) je nenulov´a pouze pro kladn´e hodnoty argumentu. ˇ ık´a se mu M´a jedin´ y parametr, jehoˇz hodnotou m˚ uˇze b´ yt pouze pˇrirozen´e ˇc´ıslo. R´ poˇcet stupˇ n˚ u volnosti.
f (x) =
n x 1 x 2 −1 e− 2 , n 2 2 Γ( n ) 2
0,
x>0, jinak.
Obr´ azek 3: Grafy hustoty ch´ı-kvadr´at rozdˇelen´ı pro r˚ uzn´e stupnˇe volnosti Takov´e rozdˇelen´ı (viz. obr´ azek ˇc.3) m´a napˇr´ıklad n´ahodn´a veliˇcina Y = X12 +...+Xn2 , kde X1 , ..., Xn jsou nez´ avisl´e n´ahodn´e veliˇciny s rozdˇelen´ım norm´aln´ım N(0,1). [2, 7] Pˇ r´ıklad 2.5 V´ ypoˇctˇete 90% kvantil ch´ı-kvadr´at rozdˇelen´ı o 12 stupn´ıch volnosti.. ˇ sen´ı: Kvantil x ud´ Reˇ av´ a takovou hodnotu, ˇze pravdepodobnost, ˇze n´ahodn´a velicina nabude hodnoty menˇs´ı neˇz x je 100p%. Popisuje-li napˇr´ıklad n´ahodn´a ˇ a x0.60 =24 000 Kˇc, pak v´ıte, ˇze 60% lid´ı v CR ˇ m´a plat velicina X platy v CR menˇs´ı neˇz 24 000,- Kˇc.) Kvantily funkce chi-kvadr´at jsou tabelov´any a lze je tedy vyˇc´ıst ze statistick´ ych tabulek [5] a nebo je pˇr´ımo vypoˇc´ıtat urˇcit´ ym integr´alem z funkce hustoty ch´ıkvadr´ at rozdˇelen´ı. Pˇr´ısluˇsn´a hodnota 90% kvantilu je hodnota, pˇred kterou se
21
nach´ az´ı 90% hodnot chi-kvadr´at rozdˇelen´ı s 12 stupni volnosti. Obr´azek ˇc.4 prezentuje grafick´e zn´ azornˇen´ı 90% kvantilu. χ20.90 (12) = 18.55
Obr´ azek 4: Hled´ an´ı kvantilu ch´ı-kvadr´at rozdˇelen´ı
• Studentovo rozdˇ elen´ı Studentovo rozdˇelen´ı o n stupn´ıch volnosti, je spojit´e rozdˇelen´ı s hustotou f (x) =
Γ (n+1) x2 − (n+1) 2 √ (1 + ) 2 , x ∈ R, n ∈ N n Γ n2 πn
Graf hustoty pravdˇepodobnosti f (x) pro r˚ uzn´e stupnˇe volnosti n je zobrazen na obr´azku ˇc.5. Vid´ıme, ˇze rozdˇelen´ı je symetrick´e. Takov´e rozdˇelen´ı m´a napˇr´ıklad n´ahodn´ a veliˇcina T =
qU
Y n
, kdyˇz U a Y jsou nez´avisl´e n´ahodn´e veliˇciny s rozdˇelen´ım
norm´ aln´ım N(0,1) respektive ch´ı-kvadr´at Xn2 . [7]
22
Obr´ azek 5: Graf hustoty pravdˇepodobnosti studentova rozdˇelen´ı
2.4
Testov´ an´ı hypot´ ez
Statistick´e hypot´ezy jsou tvrzen´ı, t´ ykaj´ıc´ı se rozdˇelen´ı n´ahodn´ ych veliˇcin. Dan´e hypot´ezy mohou tvrdit, ˇze parametr zn´ am´eho rozdˇelen´ı leˇz´ı v urˇcit´e mnoˇzinˇe nebo ˇze n´ahodn´a veliˇcina m´ a rozdˇelen´ı urˇcit´eho typu apod. Pro lepˇs´ı pˇredstavu a uveden´ı problematiky si dovoluji dalˇs´ı pojmy vysvˇetlit na pˇr´ıkladu: Pˇredstavme si situaci kdy h´ az´ıme minc´ı. N´ahodn´a veliˇcina X v tomto pˇr´ıpadˇe nab´ yv´a ˇ hodnoty 1 nebo 0, jestliˇze padne l´ıc nebo rub mince. R´ıd´ı se alternativn´ım rozdˇelen´ım s nezn´am´ ym parametrem p, kter´ y oznaˇcuje pravdˇepodobnost padnut´ı l´ıce. N´aˇs spoluhr´ aˇc tvrdil, ˇze mince je symetrick´a, tedy p = 1/2. Tomuto tvrzen´ı ˇr´ık´ame nulov´a hypot´eza a znaˇc´ıme ji H0 : p = 1/2. K jej´ımu ovˇeˇrov´an´ı slouˇz´ı takzvan´e statistick´e ” testy” (testy v´ yznamnosti, signifikantn´ı testy). Naˇse podezˇren´ı vˇsak bylo, ˇze p < 1/2 , ˇze na minci pad´ a l´ıc m´enˇe ˇcasto neˇz rub. Tomuto tvrzen´ı ˇr´ık´ame alternativn´ı hypot´eza a znaˇc´ıme HA : p < 1/2. Pokud se na z´akladˇe statistick´eho testu rozhodneme zam´ıtnout (neveˇrit) H0 , pˇrij´ım´ ame alternativn´ı hypot´ezu HA . V´ ysledky h´ azen´ı m˚ uˇzeme zapsat do vektoru, kter´ y povaˇzujeme za realizaci n´ahodn´eho v´ ybˇeru (x1 , ..., xn ). M˚ uˇze vypadat n´asledovnˇe: (0, 1, 0, 0, ..., 1, 1, 0). Intuitivnˇe hypot´ezu H0 1 P u ku celkov´emu poˇctu hod˚ u je zam´ıt´ame, jestliˇze n Xi < C, to znamen´a, ˇze pod´ıl l´ıc˚ menˇs´ı neˇz konstanta C. Konstantu C naz´ yv´ame kritick´a hodnota. Nyn´ı si mus´ıme poloˇzit ot´azku, jak konstantu C stanovit. M´ame zvolit C = 0.3(30%) nebo C = 0.4(40%) nebo nˇejak´e jin´e ˇc´ıslo? I v pˇr´ıpadˇe, ˇze zvol´ıme C = 0.1(10%) a mince je symetrick´a, m˚ uˇze se st´at, i kdyˇz velmi zˇr´ıdka, ˇze pod´ıl l´ıc˚ u ku celkov´emu poˇctu hod˚ u bude menˇs´ı neˇz 10 %,
23
to znamen´ a, ˇze plat´ı
1 n
P
Xi < C. Naˇs´ı snahou je zvolit konstantu C tak, aby v pˇr´ıpadˇe P platnosti nulov´e hypot´ezy pravdˇepodobnost toho, ˇze nastane situace, kdy n1 Xi < C,
byla mal´a. Nen´ı totiˇz v naˇsem z´ ajmu neopr´avnˇenˇe osoˇcovat spoluhr´aˇce. 1 n
Pro testov´ an´ı pravdˇepodobnosti H0 m˚ uˇzeme zvolit i jinou n´ahodnou veliˇcinu neˇz je P Xi . Uk´ aˇzeme na pˇr´ıkladˇe: ˇ Reknˇ eme tedy, ˇze jsme uˇcinili 20 pokus˚ u s n´asleduj´ıc´ım v´ ysledkem: x = (1, 1, 0, 0, 1, 1,
1, ...). Definujme n´ ahodnou veliˇcinu X jako poˇcet pokus˚ u kdy padl l´ıc, tj. v´ ysledkem pokusu bylo ˇc´ıslo 1. Takov´ a veliˇcina m´ a binomick´e rozdˇelen´ı pravdˇepodobnosti viz. Def.2.3. N´ami zjiˇstˇen´ a hodnota XOBS = 5. Poloˇzme si ot´azku, s jakou pravdˇepodobnost´ı tento jev (XOBS = 5) nastal, za pˇredpokladu, ˇze p = 1/2. To jest za pˇredpokladu pravdivosti H0 : p = 1/2. Podle definice 2.3. je pravdˇepodobnost takov´eho jevu P (X = 5) =
20 1 5 1 . ( ) (1 − )15 = 0.015. 5 2 2
Test hypot´ezy zkonstruujeme n´ asledovnˇe: Najdeme kvantily x0.025 a x0.975 ⇒ P (x0.025 ≤ . X < x0.975 ) = 0.95. Pokud je H0 pravdiv´a, mˇela by namˇeˇren´a hodnota padnout do intervalu < x0.025 , x0.975 ) v naˇsem pˇr´ıpadˇe < 6, 14) s pravdˇepodobnost´ı pˇribliˇznˇe 0.95. H0 zam´ıt´ame v pˇr´ıpadˇe, ˇze poˇcet pokus˚ u kdy padne l´ıc nepatˇr´ı do tohoto intervalu. P (X < X OBS ), p − value = P (X > X OBS ),
pro XOBS < 21 , pro XOBS > 21 .
V pˇr´ıpadˇe, ˇze je H0 pravdiv´ a nastal jev s pravdˇepodobnost´ı vˇetˇs´ı neˇz je nastavena hladina v´ yznamnosti. Je na subjektivn´ım zv´aˇzen´ı testuj´ıc´ıho, zda je tato pravdˇepodobnost (oznaˇcujeme ji jako p-value) dostateˇcnˇe mal´a, aby pˇrestal vˇeˇrit pravdivosti H0 . Pokud zam´ıtneme nulovou hypot´ezu H0 , aˇckoli je spr´avn´a, ˇr´ık´ame t´eto chybˇe chyba prvn´ıho druhu. Dopustit se vˇsak m˚ uˇzeme i chyby, ˇze nezam´ıtneme nulovou hypot´ezu H0 , aˇckoli spr´avn´ a nen´ı. V tomto pˇr´ıpadˇe udˇel´ame chybu druh´eho druhu. Poˇzadujeme tedy, aby pravdˇepodobnost obou tˇechto chyb byla co moˇzn´a nejmenˇs´ı. Obvykle se ale pouze trv´a na poˇzadavku, aby pravdˇepodobnost chyby prvn´ıho druhu byla rovna α = 0.05, ˇ ıslu α se ˇr´ık´a hladina v´ nˇekdy α = 0.01 podle z´ avaˇznosti rozhodnut´ı. C´ yznamnosti testu. Statistick´e testy m˚ uˇzeme dˇelit na parametrick´e a neparametrick´e. U parametrick´ ych test˚ u je tˇreba dodrˇzet urˇcit´e pˇredpoklady, na jejichˇz splnˇen´ı je v´az´ano pouˇzit´ı jednotliv´ ych test˚ u (ˇcast´ ym pˇredpokladem je norm´aln´ı rozdˇelen´ı z´akladn´ıho souboru). Pouˇz´ıvaj´ı
24
statistick´e charakteristiky. Nˇekdy nem˚ uˇzeme zaruˇcit splnˇen´ı takov´ ych pˇredpoklad˚ u. Pak m˚ uˇzeme pouˇz´ıt neparametrick´e testy, kter´e nejsou z´avisl´e na typu rozdˇelen´ı a nevyˇzaduj´ı v´ ypoˇcet statistick´ ych charakteristik. [3]
25
3
Statistick´ e testy
N´ıˇze popsanou skupinou test˚ u provˇeˇrujeme hypot´ezu o typu rozdˇelen´ı z´akladn´ıho souboru nebo o shodn´em typu rozdˇelen´ı dvou v´ ybˇer˚ u pˇr´ıpadnˇe nez´avislost n´ahodn´ ych veliˇcin. Testy t´eto skupiny patˇr´ı mezi neparametrick´e. Netestujeme pouhou shodu statistick´ ych charakteristik (stˇredn´ıch hodnot nebo rozptyl˚ u), ale zjiˇst’ujeme, zda urˇcit´ y z´ akladn´ı soubor m˚ uˇze b´ yt modelem pro dan´ y v´ ybˇer nebo zda dan´ y soubor (nebo dva soubory) poch´az´ı ze z´akladn´ıho souboru.
3.1
Ch´ı kvadr´ at test dobr´ e shody
Ch´ı kvadr´at test, nˇekdy t´eˇz naz´ yvan´ y Pearson˚ uv test χ2 test dobr´e shody ovˇeˇruje vhodnost ˇci nevhodnost pouˇzit´ı urˇcit´eho rozdˇelen´ı jako modelu pro napozorovan´a data. Pro libovolnou mnoˇzinu A porovn´ame relativn´ı ˇcetnost, se kterou padnou data do t´eto mnoˇziny, a pravdˇepodobnost, s jakou se n´ahodn´a veliˇcina s rozdˇelen´ım, kter´e chceme pro modelov´ an´ı pouˇz´ıt, realizuje uvnitˇr mnoˇziny A. Toto porovn´an´ı nem˚ uˇzeme pouˇz´ıt pro kaˇzdou mnoˇzinu A. Zvol´ıme syst´em disjunktn´ıch mnoˇzin A1 , ..., Al (ˇr´ık´a se jim tˇr´ıdy), kter´e pokr´ yvaj´ı mnoˇzinu moˇzn´ ych hodnot teoretick´eho rozdˇelen´ı, o kter´em chceme rozhodnout, zda-li je to dobr´ y model nebo ne. Necht’ ni pro i = 1, ..., l znaˇc´ı absolutn´ı ˇcetnost prvk˚ u mnoˇziny Ai , to znamen´ a poˇcet dat, kter´e padnou do mnoˇziny Ai , a pod´ıl
ni n,
kde n je
rozsah v´ ybˇeru, znaˇc´ı relativn´ı ˇcetnost prvk˚ u mnoˇziny Ai . V pˇr´ıpadˇe, kdy se hodnoty
ni n
bl´ıˇz´ı hodnot´am pravdˇepodobnosti pi (pi = P (X = xi )
za pˇredpokladu, ˇze X m´ a testovan´e rozdˇelen´ı pravdˇepodobnosti), jev´ı se tento model jako vhodn´ y. Dobr´ a shoda mezi relativn´ımi ˇcetnostmi a pravdˇepodobnostmi, nast´av´a tehdy, jestliˇze je dobr´ a shoda mezi skuteˇcn´ ymi absolutn´ımi ˇcetnostmi ni , i = 1, ..., l, a takzvan´ ymi teoretick´ ymi ˇcetnostmi n · pi , i = 1, ..., l. Jednou z moˇznost´ı jak tuto shodu mˇeˇrit, je pouˇz´ıt statistiku χ2 : χ20
=
l X (ni − n · pi )2 i=1
n · pi
.
V pˇr´ıpadˇe, kdy χ20 → 0, je zˇrejm´e, ˇze model je v dobr´e shodˇe s pozorov´an´ım (skuteˇcnost´ı). Statistika χ2 m´ a χ2 rozdˇelen´ı o (l − 1) stupn´ıch volnosti. Hodnotu p − value urˇc´ıme dle vztahu p − value = 1 − F (χ20 ).
26
Pokud je hodnota χ20
nepravdˇepodobn´a”, to jest v pˇr´ıpadˇe, kdy p − value → 0 ” zam´ıt´ame H0 (je nepravdˇepodobn´ y pˇredpoklad pravdivosti H0 ). Pro praktick´e pouˇzit´ı testu se doporuˇcuje, aby teoretick´e ˇcetnosti vˇsech tˇr´ıd nebyly menˇs´ı neˇz 5. Pˇri zkoum´ an´ı v´ yskytu mozkov´ ych n´ador˚ u v MS kraji m˚ uˇzeme testovat testem dobr´e shody, zda rozdˇelen´ı pravdˇepodobnosti v´ yskytu mutac´ı jsou v regionech stejn´e. To znamen´a, ˇze rozdˇelen´ı pravdˇepodobnosti mutac´ı v jednom regionu povaˇzujeme za modelov´e a testujeme, zda rozdˇelen´ı pravdˇepodobnosti v´ yskytu mutac´ı v jin´em regionu odpov´ıd´a tomuto modelu.
3.2
Ch´ı kvadr´ at test nez´ avislosti v kontingenˇ cn´ı tabulce
Testy nez´ avislosti v kontingenˇcn´ı tabulce ˇrad´ıme mezi tzv. anal´ yzu kategori´aln´ıch dat. Kontingenˇcn´ı tabulka vznik´ a setˇr´ıdˇen´ım prvk˚ u populace podle variant dvou kategori´aln´ıch znak˚ u (Grafickou obdobou kontingenˇcn´ı tabulky je mozaikov´ y graf. Tento graf se skl´ad´a z obd´eln´ık˚ u, jejichˇz strany jsou u ´mˇern´e pˇr´ısluˇsn´ ym margin´aln´ım relativn´ım ˇcetnostem.) Pro ovˇeˇren´ı nez´ avislosti n´ ahodn´ ych veliˇcin X a Y (nez´avislosti v kontingenˇcn´ı tabulce) pouˇz´ıv´ame test, kter´ y je zaloˇzen na porovn´av´an´ı empirick´ ych (pozorovan´ ych) ˇcetnost´ı (nij ) s ˇcetnostmi teoretick´ ymi (n∗ij = nxi nyi ), tj. takov´ ymi, kter´e bychom oˇcek´avali v pˇr´ıpadˇe nez´avislosti:
x1 . . . x Pm
y1 n11 . . . nm1 ny1
. .
. .
. .
. .
. .
. .
yn n1n . . . nin nyn
P nx1 . . . nxm n
Tabulka 1: Kontingenˇcn´ı tabulka Testovanou statistikou je veliˇcina χ2 , jej´ıˇz pozorovanou hodnotu χ20 urˇc´ıme dle vztahu: χ20 =
m X n X (nij − n∗ij )2 i=1 j=1
n∗2 ij
,
kde nij - margin´ aln´ı ˇcetnosti a n∗ij - oˇcek´avan´e ˇcetnosti. [9]
27
Takto definovan´ a n´ ahodn´ a veliˇcina χ2 m´a χ2 rozdˇelen´ı pravdˇepodobnosti o (m − 1)(n − 1) stupn´ıch volnosti. P-value definujeme stejnˇe jako u pˇredchoz´ıho testu jako p − value = 1 − F (X02 ). V naˇsem pˇr´ıpadˇe zkoum´ an´ı v´ yskytu mozkov´ ych n´ador˚ u v MS kraji m˚ uˇzeme testovat, zda v´ yskyt mutac´ı z´ avis´ı na zvolen´em regionu.
3.3
Test homogenity dvou binomick´ ych rozdˇ elen´ı
Jednou z nejstarˇs´ıch, ve statistice st´ale se velmi ˇcasto vyskytuj´ıc´ıch u ´loh, je srovn´an´ı homogenity dvou binomick´ ych rozdˇelen´ı. Pˇredpokl´ adejme, ˇze v s´erii n1 nez´avisl´ ych opakov´an´ı pokusu se nˇejak´ y n´ahodn´ y jev A vyskytl X-kr´ at. Pak se pokusy nez´avisle opakuj´ı za jin´ ych podm´ınek tak, ˇze v s´erii n2 opakov´an´ı pokusu se n´ ahodn´ y jev A vyskytne Y -kr´at. Poˇcet v´ yskyt˚ u jevu A ve skupinˇe n1 opakov´an´ı pokusu (n´ ahodnou veliˇcinu X) lze povaˇzovat za n´ahodou veliˇcinu s rozdˇelen´ım Bi(n1 , π1 ), poˇcet v´ yskytu jevu A ve skupinˇe n2 opakov´an´ı pokusu (n´ahodnou veliˇcinu Y ) pak lze povaˇzovat za n´ ahodnou veliˇcinu s rozdˇelen´ım Bi(n2 , π2 ), kde π1 , π2 jsou nezn´am´e pravdˇepodobnosti. Na z´ akladˇe tˇechto u ´daj˚ u chceme testovat hypot´ezu H0 : π1 = π2 proti jedn´e z alternativ HA : π1 < π2 , resp. π1 − π2 < 0 π1 > π2 , resp. π1 − π2 > 0 π1 6= π2 , resp. π1 − π2 6= 0 Oznaˇcme P1 =
x n1
bodov´ y odhad pravdˇepodobnosti π1 a P2 =
y n2
bodov´ y odhad pravdˇepodobnosti
π2 . Pro proveden´ı tohoto testu mus´ıme m´ıt k dispozici v´ ybˇery o dostateˇcn´em rozsahu n1 , resp. n2 . Rozsahy jednotliv´ ych v´ ybˇer˚ u lze povaˇzovat za dostateˇcn´e, pokud jsou splnˇeny podm´ınky n1 =
9 9 a n1 = P1 (1 − P1 ) P2 (1 − P2 )
28
Pouˇzijeme statistiku (P1 − P2 ) − (π1 − π2 ) TOBS = q P1 (1−P1 ) 2) + P2 (1−P n1 n2 kter´a m´ a v pˇr´ıpadˇe platnosti nulov´e hypot´ezy pˇribliˇznˇe normovan´e norm´aln´ı rozdˇelen´ı N(0,1). Hodnota p − value je pak pro alternativu π1 6= π2 urˇcena rovnost´ı p − value = 2min{F0 (TOBS ); 1 − F0 (TOBS )}, pro π1 < π2 p − value = F0 (TOBS ), a je-li alternativa π1 > π2 pak p − value = 1 − F0 (TOBS ). [9]
29
4
Zpracov´ an´ı dat
4.1
Datab´ aze
Jak jsem se jiˇz zm´ınil v u ´vodu, u ´daje o vyˇsetˇren´ı pacient˚ u nebyly v elektronick´e podobˇe, bylo nutn´e vytvoˇrit softwarovou datab´azi. Vyuˇzil jsem, v souˇcasnosti asi nejv´ıce rozˇs´ıˇren´ y a nejjednoduˇsˇs´ı n´ astroj pro tvorbu datab´aze, program MS Excel, kter´ y mi poskytl dostateˇcnou softwarovou v´ ybavu pro tento typ dat. Datab´aze obsahuje celkem 7 list˚ u: • Na prvn´ım listu jsem zaˇclenil vˇsechny d˚ uleˇzit´e u ´daje, kter´e byly a v budoucnu budou potˇreba jako je jm´eno, pohlav´ı, vˇek, rodn´e ˇc´ıslo, bydliˇstˇe, spr´avn´ı obvod, ulice, hlavn´ı zamˇestn´ an´ı (u d˚ uchodc˚ u posledn´ı zn´am´e), datum prvn´ıho z´aznamu ve FNO, datum diagn´ ozy gliomu, datum u ´mrt´ı, typ n´adoru, d´ale vˇsechny n´alezy cytogenetick´eho vyˇsetˇren´ı a v posledn´ı ˇradˇe i pozn´amku u pacient˚ u s neobvykl´ ymi n´alezy. Uk´azku m˚ uˇzete vidˇet na obr´ azku ˇc. 25 na konci dokumentu. • Druh´ y list obsahuje osoby u kter´ ych z r˚ uzn´ ych pˇr´ıˇcin nebylo provedeno vyˇsetˇren´ı. • Na tˇret´ım listu se nach´ az´ı pacienti, kteˇr´ı nepoch´az´ı z Moravskoslezsk´eho kraje a nejsou proto zaˇclenˇeni do zkoum´an´ı. ˇ • Ctvrt´ y list obsahuje z pohledu statistiky nejzaj´ımavˇejˇs´ı data. Tabulka popisuje rozloˇzen´ı mutac´ı do okresn´ıch oblast´ı Moravskoslezsk´eho kraje podle bydliˇstˇe pacient˚ u. Je zde vyps´ ano vˇsech 22 oblast´ı poˇc´ınaje B´ılovcem a V´ıtkovem konˇce. Pro vz´ajemn´e porovn´ av´ an´ı region˚ u je u kaˇzd´eho z nich uveden poˇcet obyvatel, celkov´ y poˇcet nemocn´ ych, absolutn´ı poˇcet mutac´ı a zejm´ena ˇcetnosti jednotliv´ ych mutac´ı. Kousek z t´eto tabulky m˚ uˇzete vidˇet na obr´azku ˇc. 26 na konci dokumentu. • P´at´ y je vymezen´ y pro obvody Ostravy (celkem 23 obvod˚ u). U kaˇzd´eho je uveden poˇcet obyvatel a z´ aroveˇ n poˇcet nemocn´ ych. ˇ a tabulka obsahuje obvody Opavy (celkem 15 obvod˚ • Sest´ u). U kaˇzd´eho je uveden poˇcet obyvatel a z´ aroveˇ n poˇcet nemocn´ ych. • Sedm´ y list je vˇenov´ an z´ akladn´ı exploraˇcn´ı anal´ yze, s aktu´aln´ımi v´ yseˇcov´ ymi grafy zn´azorˇ nuj´ıc´ımi rozdˇelen´ı pacient˚ u podle pohlav´ı, vˇekov´ ych kategori´ı, d´ale tak´e sloupcov´e grafy zobrazuj´ıc´ı diagn´ ozy podle typu n´adoru nebo poˇcty pacient˚ u na obyvatele region˚ u.
30
4.2
Exploraˇ cn´ı anal´ yza
C´ılem t´eto ˇc´ asti je analyzovat datab´azi pacient˚ u s mozkov´ ymi n´adory. Zkoum´any jsou parametry jako napˇr´ıklad vˇek, pohlav´ı a zejm´ena v´ yskyt pacient˚ u v jednotliv´ ych regionech. Obsahuje zat´ım 118 pacient˚ u (´ udaj z 1.4.2011) a neust´ale se rozr˚ ust´a s t´ım jak pˇrib´ yvaj´ı dalˇs´ı a dalˇs´ı pacienti.
4.2.1
Pohlav´ı pacient˚ u
Tuto anal´ yzu lze nejl´epe zn´ azornit v´ yseˇcov´ ym grafem. Podle grafu na obr´azku ˇc. 6, n´adory postihuj´ı spravedlivˇe pˇribliˇznˇe stejn´ y poˇcet ˇzen a muˇz˚ u.
Obr´ azek 6: V´ yseˇcov´ y graf - muˇzi vs. ˇzeny
4.2.2
Vˇ ek pacient˚ u
Malign´ı mozkov´e n´ adory se mohou vyskytovat ve vˇsech f´az´ıch lidsk´eho ˇzivota. Anal´ yza tohoto jevu je zkoum´ ana v krabicov´em (obr. ˇc. 7), v´ yseˇcov´em grafu (obr. ˇc. 8) a grafu kumulativn´ıch relativn´ıch relativn´ıch ˇcetnost´ı (obr. ˇc. 9).
31
Obr´ azek 7: Krabicov´ y graf - vˇek pacient˚ u
Krabicov´ y graf ukazuje, jedno odlehl´e pozorov´an´ı a to pacient kter´emu je teprve p´ar mˇes´ıc˚ u. Z grafu je zˇrejm´e, ˇze 25% pacient˚ u m´a m´enˇe neˇz 41 let a 50% pacient˚ u se nach´az´ı ˇ mezi 41 a 67 rokem ˇzivota. Cerven´ y kˇr´ıˇzek n´am indikuje pr˚ umˇern´ y vˇek - pˇribliˇznˇe 52 let.
Obr´ azek 8: V´ yseˇcov´ y graf - vˇek pacient˚ u
V´ yseˇcov´ y graf a empirick´ y graf n´am pˇrehlednˇe-graficky ukazuj´ı zastoupen´ı pacient˚ u podle jejich vˇekov´e skupiny.
32
Obr´ azek 9: Graf kumulativn´ıch relativn´ıch ˇcetnost´ı vˇekov´ ych skupin pacient˚ u
4.2.3
V´ yskyt n´ ador˚ u geograficky
Obr´ azek 10: Poˇcet pacient˚ u na 1000 obyvatel Graf (obr. ˇc. 10) vych´ azej´ıc´ı z tabulky na obr´azku ˇc. 26 n´am ukazuje, jak vypad´a srovn´an´ı relativn´ıch ˇcetnost´ı (pravdˇepodobnost´ı → poˇcet pacient˚ u / poˇcet obyvatel) v jednotliv´ ych
33
ˇ y Tˇeˇs´ın a Opava. Pˇr´ıˇcinu tohoto okresech-regionech. Prvn´ı pˇr´ıˇcky zauj´ımaj´ı regiony Cesk´ jevu mus´ı naj´ıt odborn´ıci a l´ekaˇri. Jedno vysvˇetlen´ı, kter´e se nab´ız´ı je, zda v´ yskyt n´ador˚ u je ovlivˇ nov´ an zneˇciˇstˇen´ım ovzduˇs´ı. Dalˇs´ı obr´ azek ˇc. 11 pˇredstavuje mapku Moravskoslezsk´eho kraje, na kter´e jsou vybarveny okresy podle absolutn´ıch ˇcetnost´ı pacient˚ u. Nejmenˇs´ımu poˇctu pacient˚ u je pˇriˇrazena nejsvˇetlejˇs´ı barva a naopak nejvˇetˇs´ımu poˇctu pacient˚ u - barva nejtmavˇejˇs´ı. Jak je vidˇet nejpostiˇzenˇejˇs´ımi regiony jsou Ostrava a Opava.
Obr´azek 11: Absolutn´ı ˇcetnosti pacient˚ u v Moravskoslezsk´em kraji (ArcGIS) Pokud bychom chtˇeli zkoumat zda n´adory souvis´ı se zneˇciˇstˇen´ ym ovzduˇs´ım, je tˇreba zm´ınit tˇri hlavn´ı zneˇciˇst’ovatele. Ostravu nejv´ıce zneˇciˇst’uje pr˚ umyslov´a v´ yroba, doprava a
34
n´aslednˇe dom´ ac´ı produkce zplodin (vyt´apˇen´ı). V Opavˇe je situace odliˇsn´a, prvn´ı m´ısto ve zneˇciˇst’ov´ an´ı patˇr´ı dopravˇe, pot´e dom´ac´ı produkci aˇz tˇret´ı m´ısto je pr˚ umysl. Okresy se od sebe liˇs´ı poˇctem obyvatel a proto zobrazen´ı absolutn´ıch ˇcetnost´ı na mapˇe regionu nen´ı objektivn´ı. L´epe poslouˇz´ı mapka MS kraje na obr´azku ˇc. 12 s relativn´ım poˇctem pacient˚ u v kaˇzd´em regionu (s daty z obr. ˇc. 10).
Obr´ azek 12: Relativn´ı ˇcetnosti pacient˚ u v Moravskoslezsk´em kraji (ArcGIS)
Jelikoˇz mˇesto Ostrava vykazuje nejvˇetˇs´ı absolutn´ı poˇcet pacient˚ u, je vhodn´e prezentovat rozm´ıstˇen´ı pacient˚ u tak´e v jednotliv´ ych mˇestsk´ ych obvodech (obr´azek ˇc. 13). Nejh˚ uˇre vypad´a mˇestsk´ y obvod Ostrava-Jih s celkem jeden´acti pacienty.
35
Obr´azek 13: Absolutn´ı poˇcet pacient˚ u v mˇestsk´ ych obvodech Ostravy (ArcGIS)
I zde je vhodn´e zobrazen´ı relativn´ıch ˇcetnost´ı (obr´azek ˇc. 14). Mˇestsk´e obvody Pustkovec (1 pacient, 1218 obyvatel) a Mich´alkovice (2 pacienti, 3081 obyvatel) se uk´azaly jako nejv´ıce postiˇzen´e, ovˇsem na vysloven´ı z´avˇer˚ u m´a datab´aze pˇr´ıliˇs m´alo nemocn´ ych.
36
Obr´ azek 14: Relativn´ı poˇcet pacient˚ u v mˇestsk´ ych obvodech Ostravy (ArcGIS)
4.2.4
Typy n´ ador˚ u
Posledn´ı analyzovanou veliˇcinou jsou typy n´ador˚ u. Nejˇcastˇejˇs´ı v´ yskyt ukazuj´ı dle oˇcek´av´an´ı astrocytomy, prim´ arn´ı, sekund´ arn´ı glioblastomy a anaplastick´e astrocytomy. Dalˇs´ı velmi poˇcetnou skupinou jsou meningeomy, objevuj´ıc´ı se zejm´ena v dospˇel´em vˇeku a pˇrev´aˇznˇe u ˇzen.
37
Obr´azek 15: Diagn´ozy
38
39
5
Softwarov´ a aplikace
V t´eto kapitole se budu vˇenovat praktick´e ˇc´asti m´e bakal´aˇrsk´e pr´ace a to vytvoˇren´ı softwarov´e aplikace pro porovn´ an´ an´ı dvou statistick´ ych soubor˚ u.
5.1
Poˇ zadavky kladen´ e na program
Pˇri volbˇe programovac´ıho jazyka jsem nejdˇr´ıve zohlednil z´akladn´ı poˇzadavky na program plynouc´ı ze samotn´eho smyslu a vyuˇzit´ı aplikace: • Pro koho bude aplikace urˇcena? Tento program budou vyuˇz´ıvat l´ekaˇri a pracovn´ıci zab´ yvaj´ıc´ı se vˇedou, v´ yzkumem ˇci statistikou v oblasti malign´ıch mozkov´ ych n´ador˚ u. – snadn´ a pˇrenositelnost programu na operaˇcn´ıch syst´emech Microsoft Windows – jednoduch´e intuitivn´ı a uˇzivatelsky pˇr´ıjemn´e ovl´ad´an´ı aplikace • Jak´a budou vstupn´ı data? FNO shromaˇzd’uje uˇz nˇekolik let informace o pacientech s malign´ımi mozkov´ ymi n´adory. Tato data bylo tˇreba nejdˇr´ıve pˇrev´est do elektronick´e podoby, coˇz byl prvn´ı u ´kol a tak´e prvn´ı ˇc´ ast m´e bakal´aˇrsk´e pr´ace kterou jsem musel zpracovat. – program umoˇzn´ı naˇcten´ı konkr´etn´ıch extern´ıch dat ze souboru – moˇznost aktualizace souboru • Funkce programu? Jiˇz od poˇc´ atku spolupr´ ace s FNO se hovoˇrilo o porovn´av´an´ı mutac´ı mozkov´ ych n´ador˚ u pacient˚ u z r˚ uzn´ ych oblast´ı Moravskoslezsk´eho kraje. L´ekaˇre z FNO velmi zaj´ımalo, zda-li v´ yskyt n´ ador˚ u souvis´ı s enviroment´aln´ımi vlivy prostˇred´ı v naˇsem kraji (ˇcast´ ym zamoˇren´ım u ´zem´ı vysok´ ymi koncentracemi zneˇciˇst’uj´ıc´ıch l´atek v ovzduˇs´ı). – program zpracuje a porovn´a vstupn´ı data vhodn´ ymi statistick´ ymi metodami – program zvl´ adne i grafick´e zn´azornˇen´ı dat
5.2
O programu
Program nesouc´ı n´ azev BC - JAS165” je vytvoˇren ve vyspˇel´em programovac´ım jazyku ” Python v.2.6. Je obohacen´ y o ˇsk´ alu d˚ uleˇzit´ ych knihoven jako jsou napˇr´ıklad Tkinter obstar´avaj´ıc´ı grafick´e uˇzivatelsk´e rozhran´ı, Matplotlib pro vytv´aˇren´ı graf˚ u, Xlrd pro naˇcten´ı
40
souboru programu Excel, Math Numpy Xalglib zpˇr´ıstupˇ nuj´ıc´ı nˇekter´e matematick´e funkce a konstanty atd. Pˇri spuˇstˇen´ı je hned vyˇzadov´ ano naˇcten´ı datab´aze mozkov´ ych n´ador˚ u. Po tomto u ´vodn´ım kroku se zobraz´ı hlavn´ı okno aplikace, obr´azek ˇc. 16.
Obr´ azek 16: Okno programu Hlavn´ı menu obsahuje dva podstromy: Soubor
– Naˇ cti datab´ azi - umoˇzn´ı uˇzivateli zmˇenit datab´azi – Rozm´ıstˇ en´ı pacient˚ u (Internet) - otevˇre v´ ychoz´ı prohl´ıˇzeˇc s mapou pacient˚ u, viz. kapitola 5.7, na serveru GoogleMaps – Konec - ukonˇc´ı program
Grafy
– Graf Mutace X Obyvatel´ e - viz. kapitola 5.4.1 – Graf Mutace X Abs. Mutace - viz. kapitola 5.4.1
41
Testy
– Ch´ı kvadr´ at testy - test dobr´e shody (kapitola 3.1)a test nez´avislosti (kapitola 3.2) – Test homogenity - kapitola 3.3
Informace
– O programu - z´ akladn´ı informace o programu – N´ apovˇ eda - o implementovan´ ych funkc´ıch viz. obr. ˇc. 17
Obr´ azek 17: N´apovˇeda programu
5.3
Pr˚ uvodce
Pokud m´ame u ´spˇeˇsnˇe spuˇstˇen´ y program, m˚ uˇzeme pˇristoupit k jeho hlavn´ım funkc´ım. Cel´ y postup rozdˇel´ıme celkem do tˇr´ı ˇc´ ast´ı: 1. Zprvu zaˇcneme selekc´ı n´ ami zvolen´ ych region˚ u do dvou skupin A a B. Oznaˇcen´ım ˇr´adku v tabulce (lev´ a ˇc´ ast programu), se provede naˇcten´ı regionu pro n´asledn´e pˇriˇrazen´ı tlaˇc´ıtky Pˇridat poloˇzku” u kaˇzd´eho ze seznam˚ u skupin. Pokraˇcujeme do” kud se v obou skupin´ ach nenach´az´ı alespoˇ n jeden region krokem dva,tˇri nebo ˇctyˇri.
42
2. Pokud m´ ame zvoleno, m˚ uˇzeme tyto skupiny porovnat graficky pomoc´ı relativn´ıch ˇcetnost´ı funkcemi, skr´ yvaj´ıc´ı se pod tlaˇc´ıtky Mutace X Obyvatel´e” a Mutace X ” ” Mutace”, v´ıce o nich v kapitole 5.4.1. 3. Za pˇredpokladu splnˇen´ı kroku jedna, m˚ uˇzeme pouˇz´ıt ch´ı-kvadr´at test dobr´e shody (v programu pod tlaˇc´ıtkem Test dobr´e shody”) nebo test nez´avislosti v kontingenˇcn´ı ” tabulce (v programu pod tlaˇc´ıtkem Kontingenˇcn´ı tabulkou”). V´ ysledky se zobraz´ı ” vpravo dole v hlavn´ım oknˇe aplikace. Vypsan´e jsou u ´daje Hypot´eza H0, kter´ y test byl pouˇzit, hodnota p-value a nakonec rozhoduj´ıc´ı tvrzen´ı (uk´azka na obr´azku ˇc. 18) U obou tˇechto funkc´ı lze nechat vygenerovat exportovatelnou zpr´avu o testov´an´ı tlaˇc´ıtkem Report”, nach´ azej´ıc´ı se v sekci V´ ysledky”. Pˇr´ıklad takov´e zpr´avy je na ” ” obr´ azku ˇc. 19.
Obr´ azek 18: Hlavn´ı okno programu pˇri pouˇzit´ı testu
4. Regiony lze porovnat testem homogenity, nach´azej´ıc´ı se v menu programu v podstromu test˚ u.
43
Obr´azek 19: V´ ypis Cel´ y tento proces v´ ykonu programu lze vyj´adˇrit jednotn´ ym modelovac´ım jazykem UML - Unified Modeling Language. Slouˇz´ı jako grafick´ y jazyk pro vizualizaci, specifikaci, navrhov´an´ı a dokumentaci programov´ ych syst´em˚ u v softwarov´em inˇzen´ yrstv´ı. Pr˚ ubˇeh programem je zn´ azornˇen diagramem aktivit (obr´azek ˇc. 24. um´ıstˇen na konci dokumentu v sekci Tabulky a diagramy”), kter´ y je jedn´ım z UML diagram˚ u. ”
5.4
Porovn´ an´ı relativn´ıch ˇ cetnost´ı
5.4.1
Grafick´ e porovn´ av´ an´ı relativn´ıch ˇ cetnost´ı
Pro pozorov´ an´ı rozd´ıl˚ u mezi skupinami jsem pouˇzil grafick´e porovn´an´ı relativn´ıch ˇcetnost´ı. Uˇzivatel tak z grafu m˚ uˇze odhadnout, zda se skupina A liˇs´ı od skupiny B. V programu jsou na v´ ybˇer dvˇe moˇznosti: • Mutace vs. Obyvatel´ e Tato prvn´ı moˇznost realizace grafu (Mutace v mnoˇzinˇe Obyvatel)je vytv´aˇrena pomoc´ı srovn´ an´ı relativn´ıch ˇcetnost´ı mutac´ı ve skupin´ach tak, ˇze kaˇzd´a z nich je pod´ılem absolutn´ı ˇcetnosti mutace ku celkov´emu poˇctu obyvatel v dan´em regionu. Pro kaˇzdou
44
skupinu je tedy provedeno n´ asleduj´ıc´ı: relativn´ı ˇcetnost i-t´e mutace =
absolutn´ı ˇcetnost i-t´e mutace celkov´y poˇcet obyvatel skupiny(regionu)
Jelikoˇz pˇredpokl´ ad´ ame, ˇze se v ˇz´adn´e skupinˇe nenach´az´ı nulov´ y poˇcet obyvatel a z´aroveˇ n nen´ı potˇreba porovn´ an´ı jen urˇcit´ ych mutac´ı, graf nen´ı nijak omezen a zobrazuje vˇsechny kategorie. Vertik´aln´ı osa pˇredstavuje relativn´ı ˇcetnost a na horizont´aln´ı ose jsou naneseny vˇsechny mutace. V´ ysledn´ y uk´azkov´ y graf m˚ uˇzete vidˇet na obr´azku ˇc. 20. V oknˇe programu kde se zobraz´ı, jsou zpˇr´ıstupnˇeny funkce jako pˇribliˇzov´an´ı, oddalov´ an´ı, export ˇci posun grafu.
Obr´ azek 20: Grafick´e porovn´an´ı relativn´ıch ˇcetnost´ı Mutace X Obyvatel´e
• Mutace vs. Mutace Druh´ a realizace grafu (Mutace v mnoˇzinˇe Pacient˚ u)je vytv´aˇrena pomoc´ı srovn´an´ı relativn´ıch ˇcetnost´ı mutac´ı ve skupin´ach pacient˚ u (tedy uˇz ne v mnoˇzinˇe vˇsech obyvatel regionu) tak, ˇze kaˇzd´ a z nich je pod´ılem absolutn´ı ˇcetnosti mutace ku celkov´emu poˇctu mutac´ı v dan´e skupinˇe. Pro kaˇzdou skupinu je tedy provedeno n´asleduj´ıc´ı: relativn´ı ˇcetnost i-t´e mutace =
absolutn´ı ˇcetnost i-t´e mutace celkov´y poˇcet mutac´ı pacient˚ u v regionu
45
V´ ysledn´ y graf je tedy podobn´ y grafu Mutace vs. Obyvatel´e viz. obr´azek ˇc. 20, pouze je pouˇzit jin´ y v´ ypoˇcet hodnoty relativn´ı ˇcetnosti.
Obr´ azek 21: Grafick´e porovn´an´ı relativn´ıch ˇcetnost´ı Mutace X Mutace
5.4.2
Srovn´ an´ı v´ yskytu mutace v regionech testem homogenity
C´ılem tohoto testu je zjsitit, zda jsou rozd´ıly v pravdˇepodobnostech v´ yskytu dan´eho typu mutace v regionech (skupin´ ach region˚ u) A a B. Na naˇsem souboru kde m´ame dva regiony(skupiny region˚ u), testuje program kaˇzdou mutaci zvl´aˇst’. Testujeme, zda je v´ yskyt mutace geograficky stejn´ y na hypot´ez´ach: Hypot´ eza H0 - Pravdˇepodobnost v´ yskytu mutace je v regionech stejn´a. (tj. π1 = π2 ) Hypot´ eza HA - Pravdˇepodobnost v´ yskytu mutace je v regionech r˚ uzn´a. (tj. π1 6= π2 ) Oznaˇc´ıme-li P1 =
x n1
a P2 =
y n2 ,
kde x je poˇcet v´ yskyt˚ u dan´e mutace v regionu A, n1 je
poˇcet v´ yskyt˚ u mutac´ı vˇsech typ˚ u v regionu A, y je poˇcet v´ yskyt˚ u dan´e mutace v regionu B, n2 je poˇcet v´ yskyt˚ u mutac´ı vˇsech typ˚ u v regionu B, potom testov´a statistika m´a normovan´e
46
norm´aln´ı rozdˇelen´ı pravdˇepodobnosti a jej´ı pozorovan´a hodnota xOBS je d´ana rovnost´ı (P1 − P2 ) − (π1 − π2 ) xOBS = q P1 (1−P1 ) 2) + P2 (1−P n1 n2 Hodnota p-value je urˇcena vztahem p − value = 2min{F0 (xOBS ); 1 − F0 (xOBS )}, pˇritom je pouˇzita aproximace funkˇcn´ı hodnoty distribuˇcn´ı funkce normovan´eho norm´aln´ıho rozdˇelen´ı N(0,1) (jak uv´ ad´ı literatura [13]) n´asledovnˇe 2 1 1 + 1 (1 − e −2x π )2 , 0 < x ≤ 1.4, 2 2 P (x) = 1 2 2 x 1 1 − (4+x ) 2 −x (2π)− 2 e− 2 , 1.4 < x. 2
Obr´ azek 22: V´ ystup testu homogenity
47
5.5
Aplikace χ2 testu
χ2 test dobr´e shody se pouˇz´ıv´ a k testov´an´ı hypot´ezy o rozdˇelen´ı pravdˇepodobnosti dan´e veliˇciny. V programu se nach´ az´ı pod tlaˇc´ıtkem Test dobr´e shody” v kategorii Testy ch´ı ” ” kvadr´at”. Funkce Test dobr´ e shody” ” V tomto testu vol´ıme nulovou hypot´ezu H0 - rozdˇelen´ı pravdˇepodobnosti v´ yskytu mutac´ı ve skupinˇe pacient˚ u B je stejn´e jako odhadovan´e rozdˇelen´ı pravdˇepodobnosti pacient˚ u A. Snaˇz´ıme se tedy tuto hypot´ezu potvrdit ˇci vyvr´atit. Hladina v´ yznamnosti je zvolena standartnˇe na hodnotu α = 0.05. Pokud tedy p − value ≤ 0.05 zam´ıt´ame hypot´ezu H0 skupiny se navz´ ajem liˇs´ı a naopak pokud p − value > 0.05 tak nezam´ıt´ame H0 - skupiny jsou si podobn´e. Oznaˇcme symbolem pi relativn´ı ˇcetnost v´ yskytu i-t´e mutace ve skupinˇe pacient˚ u A (pˇresnˇeji jde o pod´ıl absolutn´ı ˇcetnosti v´ yskytu mutace i ku absolutn´ımu poˇctu vˇsech mutac´ı ve skupinˇe pacient˚ u A), symbolem ni absolutn´ı ˇcetnost i-t´e mutace skupiny pacient˚ u B, symbolem n absolutn´ı poˇcet vˇsech mutac´ı skupiny pacient˚ u B, pak pozorovanou hodnotu testov´e statistiky χ2 je ˇc´ıslo χ20 =
l X (ni − n · pi )2 i=1
n · pi
,
hodnota p − value je urˇcena vztahem p − value = 1 − F (χ20 ), kde F je distribuˇcn´ı funkce χ2 rozdˇelen´ı pravdˇepodobnosti s (l − 1) stupni volnosti. Hodnoty p − value bl´ıˇz´ıc´ı se nule naznaˇcuj´ı nepravdivost H0 . Distribuˇcn´ı funkce χ2 rozdˇelen´ı pravdˇepodobnosti je tabelov´ana [5], nebo ji lze z´ıskat vypoˇcten´ım urˇcit´eho integr´ alu z funkce hustoty ch´ı kvadr´at rozdˇelen´ı pravdˇepodobnosti na intervalu x ∈< 0, χ2 >. Jelikoˇz by bylo velmi neefektivn´ı uˇcit program celou tabulku, program poˇc´ıt´ a hodnotu urˇcit´eho integr´alu numericky a to sloˇzen´ ym obd´eln´ıkov´ ym pravidlem s krokem k=0.01. Z m´ ych experiment˚ u vyplynulo, ˇze tato metoda poˇc´ıt´a s pˇresnost´ı nejh˚ uˇre na 5 desetinn´ ych m´ıst ve srovn´an´ı s programem MS Excel a Statgraphics Centurion. Tento test m´ a nev´ yhodu v tom, ˇze nedok´aˇze pracovat se situac´ı kdy kter´akoli skupina obsahuje nˇekter´e mutace jejichˇz absolutn´ı ˇcetnost se rovn´a nule. V tom pˇr´ıpadˇe by doch´azelo k neplatn´e matematick´e operaci dˇelen´ı nulou. Tento program eliminuje tyto situace a z´aroveˇ n d´ a uˇzivateli na v´ ybˇer, kter´e mutace m´a do testu zahrnout. Tuto nab´ıdku m˚ uˇzete vidˇet na obr´ azku ˇc.23.
48
Zdrojov´ y algoritmus v´ ypoˇctu hodnoty χ2 m˚ uˇzete vidˇet ve v´ ypisu ˇc.1 a algoritmus pro numerickou integraci obd´eln´ıkov´ ym pravidlem ve v´ ypisu ˇc.2.
Obr´azek 23: V´ ybˇer mutac´ı def ChiKvadratObyvReduced(self,mutace): # inicializace promˇenn´ych self .aChiAbs=list() self .aChiRel=list () self .bChiAbs=list() self . bChirel = list () self .chiVys=0.0 # naˇcten´ı dat ze skupin do promˇenn´ych self .aChiAbs, self .aChiRel,a=self .getFromList( self . listA , ’Skupina A’) self .bChiAbs, self .bChiRel,b=self .getFromList( self . listB , ’Skupina B’) # vypoˇcten´ı hodnoty ch´ı−kvadr´ at testu for i in mutace: self .chiVys+=(float(self .bChiAbs[i+4])−float( self .bChiAbs[1] ∗( float ( self .aChiAbs[i+4]))/float( self .aChiAbs[1])))∗∗2 /( float ( self .bChiAbs[1])∗( float ( self .aChiAbs[i+4]) /float ( self .aChiAbs[1])))
V´ ypis 1: Metoda v´ ypoˇctu hodnoty χ2
49
def numInt( self ,xkvadrat,n): # inicializace promˇenn´ych condition =True; k=0.0 a=0.0 b=0.0 mom=0.0 self .num=0.0 # cyklus s krokem 0.01 pro integraci obd´eln´ıkov´ym pravidlem while( condition ==True): a=a+k b=b+0.01 x=(a+b)/2.0 pom=(b−a)∗((x∗∗((float(n)/2.0)−1))∗(math.e∗∗(−x/2.0)) /((2.0∗∗( float (n)/2.0))∗ xalglib .gammafunction(float(n)/2.0))) self .num=self.num+pom k=0.01 if b>xkvadrat or self .num>1: condition =False # je tˇreba eliminovat zaokrouhlovac´ı chyby poˇc´ıtaˇce if self .num>1: self .num=1.0
V´ ypis 2: Numerick´ a integrace obd´eln´ıkov´ ym pravidlem
5.6
Aplikace χ2 testu kontingenˇ cn´ı tabulky
Pro testov´ an´ı hypot´ezy o nez´ avislosti v´ yskytu mutac´ı je pouˇzit χ2 test v kontingenˇcn´ı tabulce. V programu se nach´ az´ı pod tlaˇc´ıtkem Kontingenˇcn´ı tabulkou” v kategorii Testy ” ” ch´ı kvadr´at”. Funkce Kontingenˇ cn´ı tabulkou” ” V tomto testu vol´ıme nulovou hypot´ezu H0 - V´ yskyt mutac´ı nez´avis´ı na zvolen´ ych regionech. Zda ji zam´ıtnout ˇci ne, rozhodne tento test. Hladina v´ yznamnosti je zvolena na α = 0.05 a hodnotu p − value zjiˇst’ujeme stejn´ ym zp˚ usobem jako v pˇredchoz´ı kapitole 5.5. Pˇredpokladem pro tento test je, aby oˇcek´avan´e ˇcetnosti neklesly pod 2 a aby alespoˇ n 80% z nich by bylo vˇetˇs´ıch neˇz 5.
50
Za okolnost´ı kdy jsou splnˇeny pˇredpoklady, test nen´ı nijak omezen a poˇc´ıt´a tedy s konstantn´ım poˇctem stupˇ n˚ u volnosti (viz. kapitola 3.2) narozd´ıl od testu dobr´e shody. Typ mutace
Skupina(region) A
Skupina(region) B
P
EGFR/CH7
a1
b1
a1 + b1
M10 del PTEN
a2
b2
a2 + b2
M7/del EGFR . . . Del 22q11
a3 . . .
b3 . . .
am−2
bm−2
a3 + b3 . . . am−2 + bm−2
Del 22q11.2
am−1
bm−1
am−1 + bm−1
am
bm
am + bm
a1 + ... + am
b1 + ... + bm
Polyzomie P
Pm
i=1 (ai
+ bi )
Tabulka 2: Tabulka margin´aln´ıch ˇcetnost´ı nij (ai , bi - ˇcetnosti mutac´ı)
Typ mutace
Skupina(region) A
Skupina(region) B
EGFR/CH7
(a1 +b )∗(a1 +...+am ) P1m i=1 (ai +bi )
(a1 +b )∗(b1 +...+bm ) P1m i=1 (ai +bi )
M10 del PTEN
(a2 +b )∗(a1 +...+am ) P2m i=1 (ai +bi )
(a2 +b )∗(b1 +...+bm ) P2m i=1 (ai +bi )
M7/del EGFR . . . Del 22q11
(a3 +b )∗(a1 +...+am ) P3m i=1 (ai +bi )
(a3 +b )∗(b1 +...+bm ) P3m i=1 (ai +bi )
. . .
. . .
(am−2 +b )∗(a1 +...+am ) Pm−2 m i=1 (ai +bi )
(am−2 +b )∗(b1 +...+bm ) Pm−2 m i=1 (ai +bi )
(am−1 +b )∗(a1 +...+am ) Pm−1 m i=1 (ai +bi )
(am−1 +b )∗(b1 +...+bm ) Pm−1 m i=1 (ai +bi )
(am +b Pmm)∗(a1 +...+am ) i=1 (ai +bi )
(am +b )∗(b1 +...+bm ) Pm m i=1 (ai +bi )
Del 22q11.2 Polyzomie
Tabulka 3: Tabulka oˇcek´ avan´ ych ˇcetnost´ı n∗ij (ai , bi - ˇcetnosti mutac´ı)
51
Funkce si poˇc´ıt´ a margin´ aln´ı ˇcetnosti nij podle tabulky ˇc. 2 a oˇcek´avan´e ˇcetnosti n∗ij podle tabulky ˇc. 3 a n´ aslednˇe dosad´ı do vzorce pro v´ ypoˇcet testu nez´avislosti z kapitoly 3.2. Tento algoritmus se nach´ az´ı ve v´ ypisu zdrojov´eho k´odu ˇc. 3.
def KontMutace(self): # inicializace promˇenn´ych self . marginalni= list () self .ocekavane=list() self .chKvys=0.0 # naˇcten´ı dat ze skupin do promˇenn´ych self .aChiAbs, self .aChiRel, self .skAmutRel=self.getFromList( self . listA , ’Skupina A’) self .bChiAbs, self .bChiRel, self .skBmutRel=self.getFromList( self . listB , ’Skupina B’) #vytvoreni tabulky margin´ aln´ıch a oˇcek´ avan´ych ˇcetnost´ı sumA=float(self.aChiAbs[3]) sumB=float(self.bChiAbs[3]) sumCelk=self.aChiAbs[3]+self.bChiAbs[3] for i in range(len ( self .aChiAbs)−4): self . marginalni .append([ self .aChiAbs[i+4], self .bChiAbs[i+4], self .aChiAbs[i+4]+ self.bChiAbs[i+4]]) self .ocekavane.append([float( self .aChiAbs[i+4]+self.bChiAbs[i+4])∗sumA/ sumCelk , float(self.aChiAbs[i+4]+self.bChiAbs[i+4])∗sumB/sumCelk]) self . marginalni .append([sumA,sumB,sumCelk]) #Pokud oˇcek´ avan´e ˇcetnosti neklesly pod 2 a zda alespoˇ n 80% > 5. if self . overitChiKont( self .ocekavane): for i in range(len ( self .ocekavane)): for j in range(len ( self .ocekavane[0])) : self .chKvys+=(self.marginalni[ i ][ j]− self .ocekavane[i ][ j ]) ∗∗2/( self . ocekavane[i ][ j ]) return self .chKvys else : return −1
V´ ypis 3: Metoda v´ ypoˇctu χ2 testu nez´avislosti v kontingenˇcn´ı tabulce
M´ısto mozaikov´eho grafu, kter´ y se uk´azal jako velmi nevhodn´ y pro zobrazen´ı tak velk´eho poˇctu kategori´ı(mutac´ı), m˚ uˇze uˇzivatel vyuˇz´ıt alternativu pr´avˇe porovn´an´ı relativn´ıch ˇcetnost´ı z kapitoly 5.4.1 Mutace vs. Mutace.
52
5.7
Geografick´ e rozm´ıstˇ en´ı pacient˚ u
Server od spoleˇcnosti Google - GoogleMaps (http://maps.google.com) slouˇz´ı k zobrazov´an´ı geodat. Jelikoˇz umoˇzn ˇuje vytv´ aˇret vlastn´ı mapy, trasy a body z´ajmu (v naˇsem pˇr´ıpadˇe pacienty), byl pro mˇe jasnou volbou pro vytvoˇren´ı jak´esi mapy pacient˚ u (obr´azek ˇc. 27 na konci dokumentu), kter´ a m˚ uˇze pˇrispˇet k lepˇs´ı identifikaci enviroment´aln´ıch vliv˚ u na v´ yskyt n´ ador˚ u. Nach´ az´ı v sekci Moje mapy” pod nov´ ym u ´ˇctem google vytvoˇren´ ym pouze ” pro tyto u ´ˇcely. Login
[email protected] Password dAtAbAzEw356 Je oznaˇcen´ a jako neveˇrejn´ a a dostupn´a pouze po pˇrihl´aˇsen´ı na serveru GoogleMaps nebo pod tlaˇc´ıtkem v hlavn´ım menu programu Rozm´ıstˇen´ı pacient˚ u (Internet)”. Po klik” nut´ı na pacienta se zobraz´ı z´ akladn´ı informace jako jeho jm´eno, vˇek, souˇcasn´e ˇci b´ yval´e zamˇestn´ an´ı a diagn´ oza.
53
6
Z´ avˇ er
Zad´an´ı bakal´ aˇrsk´e pr´ ace jsem splnil v cel´em jej´ım rozsahu a vyhovˇel jsem vˇsem poˇzadavk˚ um FNO o pˇredstav´ ach datab´ aze a tak´e jsem do pr´ace zakomponoval sv´e vlastn´ı n´apady a ´ myˇslenky. Uspˇeˇsnˇe jsem naprogramoval vˇsechny doporuˇcen´e statistick´e testy a grafick´e porovn´an´ı, vhodn´e k anal´ yze v´ yskytu mutac´ı v regionech. Vytvoˇril jsem mapu pacient˚ u viz. kapitola 5.7, kter´ a pozdeji pˇrispˇeje k posouzen´ı r˚ uzn´ ych enviroment´aln´ıch faktor˚ u ovlivˇ nuj´ıc´ıch n´ adory centr´ aln´ı mozkov´e soustavy. Dalˇs´ı zkoum´an´ı pˇr´ıˇcin vzniku onemocnˇen´ı je na odborn´ıc´ıch a l´ekaˇr´ıch. ´ castnil jsem se v r´amci t´eto Cel´a spolupr´ ace s FNO byla vˇzdy sviˇzn´a a objektivn´ı. Uˇ pr´ace nˇekolika jedn´ an´ı a sch˚ uzek s prim´aˇri a dalˇs´ımi l´ekaˇri angiokliniky o problematice mozkov´ ych n´ ador˚ u. Zaznamenal jsem jejich kritiku tehdejˇs´ı nedostateˇcn´e datab´aze a pˇripom´ınky na jej´ı budouc´ı formu. Hodnˇe ˇcasu zabralo z´ısk´av´an´ı dodateˇcn´ ych dat ze syst´emu CareCentra (centr´ aln´ı datab´ aze pacient˚ u), jelikoˇz zpr´avy cytogenetick´ ych vyˇsetˇren´ı nesou pouze z´ akladn´ı informace o dan´e osobˇe. V prv´e ˇradˇe nutno podotknout, ˇze testovac´ı soubor - datab´aze, obsahuje relativnˇe mal´ y poˇcet pacient˚ u a tud´ıˇz je obt´ıˇzn´e pouˇz´ıt statistick´e chi-kvadr´at testy bez nutn´ ych omezen´ı. U testu dobr´e shody se doporuˇcuj´ı minim´aln´ı ˇcetnosti tˇr´ıd a u testu nez´avislosti zase pˇredpokl´ ad´ ame urˇcit´e velikosti oˇcek´avan´ ych ˇcetnost´ı. Vˇetˇsina jich je v souˇcasnoti dokonce nulov´ ych a tud´ıˇz je ˇcasto nutn´e shlukovat regiony do skupin k zabr´anˇen´ı tomuto jevu. V tomto pˇr´ıpadˇe nelze jiˇz nijak ovlivnit velikost souboru, jelikoˇz se jedn´a o pacienty zaznamenan´e od roku 2007. Nezb´ yv´ a neˇz vyˇckat nˇekolik mˇes´ıc˚ u moˇzn´a p´ar let, na nov´e a nov´e pacienty pro skuteˇcn´e naplnˇen´ı cel´eho potenci´alu m´eho programu. Na druhou stranu z hlediska mor´aln´ıho, je pacient˚ u relativnˇe mal´ y poˇcet. Doporuˇcuji tedy i nad´ale shromaˇzd’ovat tato data pro pˇresnˇejˇs´ı v´ ysledky statistick´eho testov´an´ı a k lepˇs´ımu urˇcen´ı moˇzn´ ych pˇr´ıˇcin vzniku tohoto onemocnˇen´ı. V´ ypoˇcty programu jsem kontroloval a srovn´aval zejm´ena s programem Statgraphics Centurion XV a Microsoft Excel. D´ ale jsem pro kontrolu sv´ ych algoritm˚ u vyuˇz´ıval uk´azkov´e pˇr´ıklady z literatur [8, 9]. Po cel´ y rok pr´ ace jsem si zaˇc´ınal st´ale v´ıce vˇs´ımat kolik znalost´ı z´ıskan´ ych z r˚ uzn´ ych pˇredmˇet˚ u bakal´ aˇrsk´eho studia, vynakl´ad´am do t´eto pr´ace napˇr.: Uˇzivatelsk´a rozhrann´ı (design GUI), Skriptovac´ı programovac´ı jazyky (rysy modern´ıch skriptovac´ıch jazyk˚ u a
54
jejich aplikace), Numerick´e metody (z´akladn´ı numerick´e metody pro ˇreˇsen´ı inˇzen´ yrsk´ ych u ´loh), Statistika 1 (z´ akladn´ı pojmy a techniky pro statistickou anal´ yzu dat), Geoinformaˇcn´ı ´ technologie (datov´e modely pro popis re´aln´eho svˇeta), Uvod do informaˇcn´ıch technologi´ı (elektronick´e publikov´ an´ı) a tak´e matematickou anal´ yzu.
Petr Jaˇskovsk´ y
55
7
Literatura
[1] Harms, Daryl; McDonnald, Kenneth. Zaˇc´ın´ ame programovat v jazyce Python. 2. opraven´e vyd´ an´ı. Brno : Computer Press, a.s., 2008. 456 s. ISBN 978-80-251-2161-0, K1614. [2] Jaruˇskov´ a, Daniela. Pravdˇepodobnost a matematick´ a statistika 11. Praha : Vydavaˇ telstv´ı CVUT, 1999. 120 s. PLU 2277. [3] Doleˇzalov´ a, Jarmila; Pavelka, Lubom´ır. Pravdˇepodobnost a statistika : Matematika ˇ - TECHNICKA ´ UNIVERZITA OSTRAVA, 2005. 176 s. V. 1. vyd´ an´ı. Ostrava : VSB ISBN 80-248-0948-6. [4] Maly,
Marek.
2009,
N´ ahodn´ a
17.02.2009
[cit.
veliˇcina 2010-12-02].
:
Z´ aklady
Dostupn´e
[online]. z
WWW:
. [5] H´ala, Martin; Jaruˇskov´ a, Daniela. Pravdˇepodobnost a matematick´ a statistika 11 : Taˇ bulky. Praha : Vydavatelstv´ı CVUT, 1999. 21 s. PLU 2286. [6] Kl´ıma, Jakub. Statistick´e zpracov´ an´ı v´ysledk˚ u mˇeˇren´ı. Praha, 2008. 50 s. Bakal´aˇrsk´a ˇ e vysok´e uˇcen´ı technick´e v Praze. pr´ace. Cesk´ [7] Friesl, Michal. Pravdˇepodobnost a statistika : Hypertextovˇe [online]. Plzeˇ n, 20022004. 124 s. Uˇcebn´ı text. Z´ apadoˇcesk´a univerzita v Plzni. Dostupn´e z WWW: . [8] Litschmannov´ a,
Martina.
Vybran´e
kapitoly pravdˇepodobnosti [online]. Ostˇ rava, 2011. 198 s. Uˇcebn´ı text. VSB - TU Ostrava. Dostupn´e z WWW:
bnosti.pdf>. [9] Litschmannov´ a, 331
s.
Martina.
Uˇcebn´ı
text.
´ Uvod do statistiky [online]. Ostrava, 2011. ˇ VSB - TU Ostrava. Dostupn´e z WWW:
. [10] Hrdliˇckov´ a, tika
IV
Zuzana. [online].
Z´ akladn´ı
7.2.2007,
6,
rozdˇelen´ı [cit.
pravdˇepodobnosti.
2011-01-30].
Dostupn´ y
.
Matemaz
WWW:
56
[11] Kram´ aˇr Filip,
Zuzana
Zemanov´a:
Chromosomov´e aberace v buˇ nk´ ach ma-
lign´ıch mozkov´ych n´ ador˚ u. Multimedi´aln´ı podpora v´ yuky klinick´ ych a zdravotnick´ ych obor˚ u :: Port´ al 1. l´ekaˇrsk´e fakulty Karlovy Univerzity v Praze [online] 2.1.2007, posledn´ı aktualizace 22.6.2009 [cit. 2011-04-10] Dostupn´ y z WWW: . ISSN 1803-6619. [12] Bednaˇr´ık, Josef; Ambler, Zdeˇ nˇek; R˚ uˇziˇcka, Evˇzen. Klinick´ a neurologie : ˇc´ıst speci´ aln´ı 1. 1. Praha : TRITON, 2010. 707 s. ISBN 978-80-7387-389-9. [13] Abramowitz, Milton; A. Stegun, Irene. Handbook of Mathematical Functions : Formulas, Graphs, and Mathematical Tables. Tenth printing. United States of America : U.S. Government printing office, 1972. 1046 s. Dostupn´e z WWW: . 64-60036.
57
58
A
Uk´ azky datab´ aze, diagramy a mapy
Obr´ azek 24: Proces v´ ykonu programu
Obr´azek 25: Datab´aze - cytogenetika 59
60
Obr´azek 26: Datab´aze - regiony
Obr´azek 27: Mapa rozm´ıstˇen´ı pacient˚ u 61