LISp-Miner
Na lékařských datech.
Martin Šulc Cikháj 15.-14.1.2005
Abstrakt
Tato přednáška je o systému vyvíjeném na VŠE v Praze a o jeho aplikaci na data, která jsou genetickým obrazem lidí s rakovinou v různém stádiu.
Abstrakt
Tato přednáška je o systému vyvíjeném na VŠE v Praze a o jeho aplikaci na data, která jsou genetickým obrazem lidí s rakovinou v různém stádiu. Byly vyhledávány asociační pravidla, popisující geny, které reagují na onemocnění svou aktivitou.
Abstrakt
Nemalou část projektu zabrala příprava dat, proto je obsahem přednášky i důkladný popis databáze pro lepší pochopení toho co vlastně hledáme.
LISp-Miner
Akademický softwarový systém LISp-Miner, který je vyvíjen na Fakultě informatiky a statistiky VŠE v Praze od roku 1996, je určen studentům pro seznámení se s procesem dobývání znalostí z databází. Autoři: M. Šimůnek, J. Rauch, P. Berka
LISp-Miner
Skládá se čtyř základních modulů – LMAdmin pro inicializaci databáze a metabáze (slouží pro ukládání nastavení a nalezených výsledků). – LMDataSource pro přípravu dat. – 4ftTask pro vytváření úloh a dolování. – 4ftResult pro analýzu výsledků.
Zdroj dat
Lidé – „Zdravý“ (A) – Nádor se vyvíjí (B) – Metastáze (C)
Zdroj dat
Geny – Čtení scannerem - nastávají první chyby při čtení (šum, nečistoty). – 16-bitové číslo pro každý fluorochrom zvlášť (0 až 65535), které udává intenzitu jasu flourohromu. U malých hodnot může nastat větší chyba.
Zdroj dat
Analýza obrazu – Používají se různé programy (algoritmy) pro určení intenzity bodu.
ScanAlyze
GenePix
Spot
http://rana.lbl.gov/EisenSoftware.htm
Zdroj dat
Analýza obrazu – Pro snímání obrazu scannerem se používají dvě barvy. Cy3 zelená fluorescentní barva a Cy5 červená fluorescenční barva. Tyto dva obrazy se sloučí (sečtou) a analyzuje se výsledný obraz. Pro data, která byla použita v tomto projektu, byla použita barva Cy3 jako hlavní a Cy5 jako kontrolní u některých lidí.
Zdroj dat
Čísla: – 12 pacientů, každý měl dva sloupce Z jako zdravý, N jako nemocný
– 6 pacientů mělo navíc kontrolní sloupce – Dohromady tedy 36 sloupců
Zdroj dat
Čísla: – 1 člověk v kategorii A – 5 lidí v kategorii B – 6 lidí v kategorii C – Kategorie A a B mají k sobě velmi blízko proto byli sloučeny (6 AB a 6 C)
Zdroj dat
Čísla: – Databáze obsahovala záznam o 1920 genech, každý gen byl dvakrát skenovaný, takže bylo celkem 3840 řádků. – Ne všechny geny byly pacientů.
Zdroj dat
Na sklíčku byly: – Geny pacientů – Kontrolní body Jasně
svítící body na sklíčku jsou použity jako negativní kontrola.
– Geny rostliny Arabidopsis Thaliana To
je pozitivní kontrola, která se používá i jako kalibr.
Zdroj dat
Mezi geny pacientů se přidávají geny rostliny Arabidopsis thaliana, které slouží jako pozitivní kontrola. Má na sto milionů genetických jednotek sloučených ve 26 000 genech a z těch je třetina podobných lidským. V rostlině je také asi polovina ze závažných humánních onemocnění, kterých je asi 289. http://www.arabidopsis.org/
Příprava dat 1ZC
1NC
2ZC
2NC
3ZC
3NC
165
333
223
149
164
224
165
288
41
186
249
224
800
1117
1069
1177
550
600
930
1155
1158
1265
557
686
150
119
41
69
164
43
151
119
40
185
164
42
150
155
230
193
249
224
150
298
230
239
165
271
1751
1497
1481
1718
1439
1545
1805
1494
1741
446
1845
1810
150
150
58
251
164
224
Příprava dat 1ZC
1NC
2ZC
2NC
3ZC
3NC
165
333
223
149
164
224
165
288
41
186
249
224
800
1117
1069
1177
550
600
930
1155
1158
1265
557
686
150
119
41
69
164
43
151
119
40
185
164
42
150
155
230
193
249
224
150
298
230
239
165
271
1751
1497
1481
1718
1439
1545
1805
1494
1741
446
1845
1810
150
150
58
251
164
224
Chyba
Příprava dat
Významná data: – Data jsou významná, je-li významný rozdíl nebo podíl mezi stavem zdravý a nemocný, protože tím vyniknou geny, které na rakovinu reagují. Významný
rozdíl je větší než 500. Významný podíl je větší než 1,5. Co použít pro výpočet?
Příprava dat
Rozdíl nebo podíl?
Příprava dat
Rozdíl nebo podíl? Není v tom rozdíl. – Proč? Potřebujeme
upravit data tak, aby nám říkala zda je gen stabilní, aktivní nebo snižuje svou aktivitu. A to se dá poznat z rozdílu i podílu. Například ale 164 / 42 = 3,9, přitom ale čísla 164 a 42 jsou nevýznamná. Data upravíme…
Příprava dat
Rozdíl nebo podíl? – Zvolil jsem podíl. – Je však zapotřebí data ještě před výpočtem podílu připravit. – Data je nutné „zjednodušit“.
Příprava dat – Čísla jsou v intervalu od 0 do 65535, pokud nemocný má hodnotu do 500 a zdravý také do 500, tak je to nevýznamný rozdíl.
Příprava dat – Čísla jsou v intervalu od 0 do 65535, pokud nemocný má hodnotu do 500 a zdravý také do 500, tak je to nevýznamný rozdíl. – Zajímají nás rozdíly kde by zdravý měl hodnotu například do 500 a nemocný hodnotu řádově násobku 500, to je viditelná změna a dá se říci, že gen reaguje na onemocnění.
Příprava dat
Vydělením databáze číslem 500 a zaokrouhlením nahoru, získáme hodnoty 1 až 131. Pak Z/N. Výsledkem byly čísla menší, rovny nebo vetší než jedna, která říkala jestli je gen aktivnější, stabilní nebo snižuje svou aktivitu.
Příprava dat 1
0,5
1
1
1
1
1
1
1
2
1
1
1
1
1
2
1
1
1
1
1
1,5
1
1
1
2
1
1,5
1
1
1,75
0,75
0,8
1
1
1,666667
2
0,5
1
1
1,25
2
1
1
1
1
1
1
1
1
1
1
1
1
Příprava dat
Na data použijeme funkci: (PS: data jsem upravoval v Microsoft Excel) =KDYŽ(BW3840=1;1;KDYŽ(BW3840>1;2;0)) Respektive: if (x = 1) { 1 } elseIf (x > 1) { 2 } else { 0 }
Příprava dat
Popis upravených dat: – Řádky, které jsou naplněny jen jedničkami jsou geny, které na onemocnění nereagují nebo je to Arabidopsis Thaliana. – Číslo nula značí, že gen zvyšuje svou aktivitu. – Dvojka je u genu, který snižuje svou aktivitu.
Příprava dat
Současná podoba dat: 1C
2C
3C
4A
5C
1
1
1
1
1
1
1
1
1
1
0
1
1
2
1
0
1
1
2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
0
0
0
1
Příprava dat
Potřebná podoba dat:
1,2,1,1,2,0,2,0,1,1,2,2,2,1,0,1,1,1,1,1,0,0,1,1,1,1,1C 1,1,1,1,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,2C 1,1,0,1,1,1,0,1,1,1,1,1,0,0,1,1,1,1,1,1,1,1,1,1,0,0,3C 1,1,2,2,2,0,1,1,1,0,1,1,0,0,1,0,1,1,1,2,0,0,1,1,0,0,4A 0,0,0,0,1,1,0,0,2,2,0,0,1,1,1,1,2,2,1,1,0,2,1,2,1,1,5C 1,1,1,1,2,1,1,1,1,1,1,1,2,1,1,1,1,1,2,2,0,2,0,1,1,1,6C 1,1,1,1,0,0,2,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,7C 1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,2,1,1,1,2,8B 0,1,1,1,2,2,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,2,9B
Příprava dat
LISp-Miner pracuje s databází Microsoft Access, která je omezená na 256 sloupců.
Příprava dat
LISp-Miner pracuje s databází Microsoft Access, která je omezená na 256 sloupců. Otočená databáze obsahuje 3840 sloupců s daty, plus jeden ID, atributy (A, B, C) a atributy (R, N).
Příprava dat
LISp-Miner pracuje s databází Microsoft Access, která je omezená na 256 sloupců. Otočená databáze obsahuje 3840 sloupců s daty, plus jeden ID, atributy (A, B, C) a atributy (R, N). To byl pro LISp-Miner ještě před půl rokem problém. Sytém se ale vyvíjí…
Příprava dat
Import do databáze Microsoft Acess:
Import dat do LISp-Mineru
Nová funkce pro import dat s více než 256 sloupci:
Analýza dat
Implicitní nastavení: – Antecedent byly všechny geny – Succedent byl atribut BC
Analýza dat
Implicitní nastavení: – Antecedent byly všechny geny – Succedent byl atribut BC
Výsledky – Natavení je nevhodné pro tento typ dolování, protože antecedent je nastaven na rozsah 0 až 99 a my hledáme jeden gen, takže potřebujeme 1 až 1.
Analýza dat
Vlastní nastavení parametrů: – Base 8 znamená, že to bude platit nejméně pro 8 pacientů.
Analýza dat
Výsledky: – Nalezeno 50 hypotéz (asociačních pravidel)
Analýza dat
Podrobnější pohled na gen 327(328) 1. Opravíme chyby
Pacient
327
328
BC
1
1
1
C
2
1
1
C
3
0
1
C
4
2
2
B
5
1
1
C
6
1
1
C
7
1
1
C
8
1
1
B
9
2
2
B
10
2
2
B
11
1
1
B
12
2
2
B
13 (4)
2
2
B
14 (8)
1
2
B
15 (9)
2
2
B
16 (10)
2
2
B
17 (11)
1
1
B
18 (12)
2
2
B
Analýza dat
Hledání chyb.
Analýza dat
Hledání chyb.
Analýza dat
Podrobnější pohled na gen 327(328) 1. Opravíme chyby 2. Procenta: • •
100 % pro 1 -> C 66 % pro 2 -> B
ID
327
328
BC
1
1
1
C
2
1
1
C
3
1
1
C
4
2
2
B
5
1
1
C
6
1
1
C
7
1
1
C
8
1
1
B
9
2
2
B
10
2
2
B
11
1
1
B
12
2
2
B
13 (4)
2
2
B
14 (8)
1
1
B
15 (9)
2
2
B
16 (10)
2
2
B
17 (11)
1
1
B
18 (12)
2
2
B
Analýza dat
Co nám říká gen 327 (328)? – Vezmeme-li náhodné lidi, tak pokud jejich gen nebude v hodnotě kolem 4000, ale pod hodnotu 1000, tak se dá s 84% pravděpodobností říci, že daný člověk má problém… – Procenta jsou však jen orientační, protože bylo k dispozici je jen 12 pacientů a platilo to pro 10 z 12-ti.
Prostor na otázky
Ptejte se…