1 Západočeská univerzita v Plzni Katedra informatiky a výpočetní techniky Univerzitní Plzeň Česká republika Rozsáhlé informační systémy standardizace ...
Z´ apadoˇcesk´ a univerzita v Plzni Katedra informatiky a v´ ypoˇcetn´ı techniky Univerzitn´ı 8 30614 Plzeˇ n ˇ a republika Cesk´
Rozs´ ahl´ e informaˇ cn´ı syst´ emy – standardizace metadat Odborn´ a pr´ace ke st´ atn´ı doktorsk´e zkouˇsce
Petr Vˇcel´ak
Technick´a zpr´ ava ˇc. DCSE/TR-2011-05 Z´ aˇr´ı, 2011 Distribuce: veˇrejn´ a
Technick´a zpr´ ava ˇc. DCSE/TR-2011-05 Z´ aˇr´ı 2011
Rozs´ ahl´ e informaˇ cn´ı syst´ emy – standardizace metadat Petr Vˇcel´ak Abstrakt Rozs´ahl´e informaˇcn´ı syst´emy mus´ı komunikovat a spolupracovat s okol´ım. Pro zajiˇstˇen´ı interoperability syst´em˚ u je potˇreba zajistit, aby spolupracuj´ıc´ı syst´emy pouˇz´ıvaly shodn´e slovn´ıky i v´ yznam informac´ı, kter´e si mezi sebou maj´ı vymˇen ˇ ovat. Pr´ace se zab´ yv´a n´ avrhem metod a princip˚ u pro zajiˇstˇen´ı interoperability pˇri zpracov´an´ı metadat s n´ avaznost´ı na jejich dalˇs´ı pouˇzit´ı. C´ıl v´ yzkumn´eho informaˇcn´ıho syst´emu pro podporu rozs´ ahl´ ych medic´ınsk´ ych a zdravotnick´ ych heterogenn´ıch dat re´aln´ ych pacient˚ u a pˇredevˇs´ım navrhovan´eho zpracov´an´ı metadat je v zajiˇstˇen´ı jednotn´eho prostˇred´ı a rozhran´ı pro podporu medic´ınsk´eho v´ yzkumu prim´ arnˇe zamˇeˇren´eho na problematiku c´evn´ı mozkov´e pˇr´ıhody. .
Kopie zpr´ avy jsou dostupn´e na http://www.kiv.zcu.cz/publications/ nebo na ˇza´dost poslanou na adresu: Z´ apadoˇcesk´ a univerzita v Plzni Katedra informatiky a v´ ypoˇcetn´ı techniky Univerzitn´ı 8 30614 Plzeˇ n ˇ a republika Cesk´ ˇ a republika c 2011 Z´ Copyright apadoˇcesk´ a univerzita v Plzni, Cesk´
V rigor´ozn´ı pr´aci se prim´ arnˇe zab´ yv´am standardizac´ı metadat a zajiˇstˇen´ım interoperability v oblasti rozs´ ahl´ ych v´ yzkumn´ ych medic´ınsk´ ych a zdravotnick´ ych informaˇcn´ıch syst´em˚ u. V´ yzkum je zaloˇzen na velk´em mnoˇzstv´ı heterogenn´ıch medic´ınsk´ ych dat re´ aln´ ych pacient˚ u, kter´ a jsou v r˚ uzn´ ych form´atech a verz´ıch. C´ılem v´ yzkumn´eho informaˇcn´ıho syst´emu je zajistit jednotn´e prostˇred´ı a rozhran´ı pro podporu medic´ınsk´eho v´ yzkumu obecnˇe i pˇresto, ˇze je nyn´ı v´ yzkum zamˇeˇren na oblast mozku a problematiku c´evn´ı mozkov´e pˇr´ıhody. C´evn´ı mozkov´e pˇr´ıhody ˇ e republice se jedn´a a druhou tvoˇr´ı jsou celosvˇetovˇe nejˇcastˇejˇs´ı pˇr´ıˇcinou smrti. V Cesk´ nejˇcastˇejˇs´ı pˇr´ıˇcinu smrti. [4, 16] C´evn´ı mozkov´e pˇr´ıhody jsou tak´e druhou nejˇcastˇejˇs´ı pˇr´ıˇcinou demence, nejˇcastˇejˇs´ı pˇr´ıˇcinou epilepsie v pokroˇcil´em vˇeku a ˇcastou pˇr´ıˇcinou depres´ı. [1, 20, 22] Navrˇzen´ y v´ yzkumn´ y informaˇcn´ı syst´em podporuje vˇsechny z´ akladn´ı c´ıle informaˇcn´ıho syst´emu – z´ısk´ av´ an´ı a pˇrenos informac´ı, zpracov´an´ı informac´ı (evidence, organizace, kategorizace, tˇr´ıdˇen´ı, vyhled´av´ an´ı, agregaci), uloˇzen´ı informac´ı, zpˇr´ıstupnˇen´ı informac´ı (tisk, vizualizace) a v neposledn´ı ˇradˇe odvozov´an´ı nov´ ych informac´ı. Pro posledn´ı jmenovan´e odvozov´an´ı je navrˇzena tak´e metodika pro prov´adˇen´ı tzv. experiment˚ u, kter´ ymi lze z existuj´ıc´ıch informac´ı i zdrojov´ ych dat vytv´aˇret nov´e informace. Ve v´ yzkumn´em informaˇcn´ım syst´emu doch´ az´ı k poˇzadovan´emu zpracov´an´ı metadat a uloˇzen´e informace mohou slouˇzit pro navazuj´ıc´ı znalostn´ı, expertn´ı ale i v´ yukov´e syst´emy. Osobn´ı u ´daje a znalost identity pacienta nejsou pro medic´ınsk´ y v´ yzkum v´ yznamn´e. Proto mus´ı b´ yt veˇsker´ a data pˇred pˇrenosem anonymizov´ana. Mus´ı b´ yt odstranˇeny nebo nahrazeny identifikaˇcn´ı a osobn´ı u ´daje pacienta s d˚ urazem na zachov´an´ı vnitˇrn´ıch vazeb mezi daty. Proto klinick´e zpr´ avy, laboratorn´ı v´ ysledky, obrazov´a dokumentace i dalˇs´ı dokumenty z˚ ustanou i pro v´ yzkumn´e u ´ˇcely propojeny. Zachov´an´ı vazeb a tedy zdravotnick´e historie pacienta ve zdrojov´ ych datech pˇrin´ aˇs´ı dalˇs´ı moˇznosti jejich sekund´ arn´ıho vyuˇzit´ı. P˚ uvodn´ı identifik´atory (rodn´ a ˇc´ısla) jsou jednotnˇe nahrazov´ana nov´ ym anonymn´ım identifik´atorem. Partnery v´ yzkumu jsou Fakultn´ı nemocnice v Plzni (FNPL), L´ekaˇrsk´a fakulta v Plzni Karlovy univerzity v Praze (LFP) a Fakulta aplikovan´ ych vˇed (FAV) na ˇ Z´ apadoˇcesk´e univerzitˇe v Plzni (ZCU). Pˇr´ımo spolupracuj´ı neurologick´a klinika, radio-diagnostick´a klinika, oddˇelen´ı neurochirurgie, oddˇelen´ı chirurgie, Katedra informatiky a v´ ypoˇcetn´ı techniky a Katedra mechaniky. Medic´ınsk´ a data jsou z´ısk´ av´ ana ve spolupr´ aci s Fakultn´ı nemocnic´ı v Plzni (FNPL).
1
2
Teoretick´ e pozad´ı
V t´eto kapitole nejprve definuji term´ın metadat a pod´ av´ am s t´ım souvisej´ıc´ı informace. Po t´e ˇcten´ aˇre sezn´am´ım s problematikou dat v rozs´ahl´ ych v´ yzkumn´ ych medic´ınsk´ ych a zdravotnick´ ych informaˇcn´ıch syst´emech. Pˇredevˇs´ım zmiˇ nuji pouˇz´ıvan´e datov´e form´aty pro v´ ymˇenu informac´ı. Jedn´ a se o r˚ uzn´e typy klinick´ ych zpr´ av, laboratorn´ı vyˇsetˇren´ı, ale i obrazovou dokumentaci.
2.1
Metadata
Slovo metadata poch´ az´ı z ˇreck´eho meta = mezi, za a latinsk´eho data = to, co je d´ ano a pˇredstavuj´ı strukturovan´a data. V´ yznam tˇechto strukturovan´ ych dat je velmi ˇcasto definov´an ve v´ yznamu data o datech. Tedy strukturovan´a data popisuj´ıc´ı data. Tato definice vˇsak nen´ı pˇresn´a. V pˇr´ıpadˇe struktur´aln´ıch metadat, jako je n´ avrh a specifikace datov´ ych struktur, se nem˚ uˇzeme o datech bavit, protoˇze v dobˇe n´ avrhu ˇza´dn´a data aplikace neobsahuje. Spr´avn´ a definice pro tento pˇr´ıpad by byla data o kontejneru pro data. Pˇritom popisn´a metadata jsou o individu´ aln´ıch instanc´ıch aplikaˇcn´ıch dat, tedy obsahu dat (data content). Vhodn´ a definice pro popisn´a metadata m˚ uˇze b´ yt data o obsahu dat (data about data contents) nebo obsah o obsahu (content about content) a m˚ uˇzeme definovat pojem metaobsah (metacontent). Metadata (metaobsah) zvyˇsuj´ı kvalitu dat/obsahu, protoˇze umoˇzn ˇ uj´ı popis obsahu a kontextu libovoln´eho objektu a t´ım pˇrid´ av´ an´ı dalˇs´ıch, rozˇsiˇruj´ıc´ıch informac´ı k p˚ uvodn´ımu objektu. Jako popisovan´ y p˚ uvodn´ı objekt m˚ uˇze b´ yt cokoliv. V naˇsem pˇr´ıpadˇe rozs´ ahl´ ych informaˇcn´ıch syst´em˚ u v oblasti v´ yzkumu v medic´ınˇe to m˚ uˇze b´ yt napˇr. l´ekaˇrsk´ a zpr´ ava nebo radiologick´e obrazov´e vyˇsetˇren´ı. L´ekaˇrsk´a zpr´ ava m˚ uˇze obsahovat metadata o tom, jak´e n´ astroje byly pro jej´ı tvorbu pouˇzity, kdy byla vytvoˇrena, v jak´em jazyce, zda obsahuje pˇr´ılohy a jak´e, ale tak´e u obrazov´ ych dat i zp˚ usob vizualizace. Metadata pˇrin´ aˇs´ı v´ yhody pˇri tvorbˇe katalog˚ u, rejstˇr´ık˚ u, pro vyhled´ av´ an´ı a tˇr´ıdˇen´ı. I metadata jsou daty a hranice mezi nimi nemus´ı b´ yt vˇzdy jasn´ a. Stejnˇe jako data, m˚ uˇzeme i metadata uloˇzit napˇr. do datab´aze nebo jin´eho u ´ loˇziˇstˇe. [8] Pouh´ ym pohledem na data nen´ı moˇzn´e rozliˇsit, zda se jedn´a o data nebo metadata. Uˇzivatel nem˚ uˇze vˇedˇet, kdy jsou data metadaty nebo pouze daty. [2] Tvorba metadat m˚ uˇze b´ yt provedena automatick´ ym zpracov´an´ım informac´ı nebo manu´ alnˇe uˇzivatelem. Nˇekter´a z´ akladn´ı metadata o ˇcasu vzniku nebo posledn´ı zmˇeny, tv˚ urci, vlastn´ıkovi a velikosti a typu souboru lze zjistit automaticky.
2.1.1
Typy metadat
Rozdˇelen´ı podle typu metadat se u r˚ uzn´ ych autor˚ u liˇs´ı. Bretheron & Singley (1994) uv´ad´ı dvˇe skupiny: 1. struktur´aln´ı/ˇr´ıd´ıc´ı 2. a kl´ıˇcov´a metadata. Struktur´ aln´ı popisuj´ı strukturu poˇc´ıtaˇcov´eho syst´emu, jako jsou tabulky, sloupce a indexy. Kl´ıˇcov´a metadata pom´ ahaj´ı lidem naj´ıt konkr´etn´ı poloˇzky a jsou tvoˇrena kl´ıˇcov´ ymi slovy v pˇrirozen´em jazyce.
2
Ralph Kimball dˇel´ı metadata na tˇri typy: 1. technick´a (jinak t´eˇz intern´ı), 2. obchodn´ı (business, jinak t´eˇz extern´ı) 3. a procesn´ı metadata. Na z´ avˇer National Information Standards Organization (NISO) dˇel´ı metadata na tˇri typy: 1. popisn´ a, 2. struktur´aln´ı, 3. administrativn´ı – d´ ale m´a podskupiny metadat: (a) pr´ava ke zdroj˚ um – intelektu´ aln´ı vlastnictv´ı, ochrana soukrom´ı a d˚ uvˇernost zdroj˚ u a informac´ı (b) ochrana zdroj˚ u – metadata zahrnuj´ıc´ı archivaci a ochranu zdroj˚ u Popisn´ a metadata slouˇz´ı k vyhled´an´ı a lokalizaci objektu. Struktur´ aln´ı metadata popisuj´ı jak jsou komponenty objektu propojeny a organizov´any. Administrativn´ı metadata nesou technick´e informace jako je napˇr. typ souboru. [18]
2.1.2
Struktura a z´ apis
Struktura metadat je d´ ana pouˇzit´ ym sch´ematem. Sch´ema metadat v sobˇe zahrnuje standardy a modely metadat. Konkr´etn´ı podoba z´ apisu metadat vych´ az´ı z pravidel vytvoˇren´ ych pro strukturov´an´ı pol´ı a element˚ u metadat (meta obsahu). [3] Sch´ema pro metadata m˚ uˇze b´ yt vyj´adˇreno v mnoˇzstv´ı znaˇckovac´ıch nebo programovac´ıch jazyk˚ u, kdy kaˇzd´ y vyˇzaduje odliˇsn´ y zp˚ usob z´ apisu. Napˇr´ıklad sch´ema Dublin Core m˚ uˇze b´ yt zaps´ano v ˇcist´em textu, HTML, XML a RDF. [6] Sch´ema metadat m˚ uˇze b´ yt hierarchick´e, line´arn´ı (jednorozmˇern´e) nebo rovinn´e (dvourozmˇern´e). Hierarchick´e je sch´ema pokud existuj´ı vz´ ajemn´e vztahy mezi elementy metadat a elementy jsou vnoˇreny tak, ˇze mezi nimi existuje vazba rodiˇc– potomek. Pˇr´ıkladem hierarchick´eho sch´ema je IEEE LOM, kde elementy metadat mohou n´ aleˇzet do rodiˇcovsk´eho elementu. Line´ arn´ı sch´ema je takov´e, kde kaˇzd´ y element je zcela nez´ avisl´ y na ostatn´ıch elementech. Stejnˇe tak je kaˇzd´ y element klasifikov´an pouze v jednom rozmˇeru, jako je napˇr. Dublin Core sch´ema. Rovinn´e sch´ema m´a kaˇzd´ y element zcela nez´ avisl´ y od ostatn´ıch element˚ u, ale klasifikace je ve dvou vz´ ajemnˇe ortogon´aln´ıch rozmˇerech. U rovinn´eho sch´ema je nutn´ y i typ mapov´an´ı, ˇ kter´ y n´ am umoˇzn´ı zobrazen´ı na metadata podle zvolen´eho aspektu. Casto se jedn´a o vrstven´ı geografick´ ych a geologick´ ych informac´ı. ´ Uroveˇ n strukturov´an´ı metadat se oznaˇcuje jako granularita. Vyˇsˇs´ı granularita umoˇzn ˇuje hlubˇs´ı strukturov´an´ı informac´ı a souˇcasnˇe s t´ım i lepˇs´ı moˇznosti pro n´ asleduj´ıc´ı technickou manipulaci. Naopak, niˇzˇs´ı granularita znamen´ a m´enˇe detailn´ı strukturov´an´ı informac´ı. V´ yhodou niˇzˇs´ı granularity je znaˇcnˇe levnˇejˇs´ı tvorba ale i n´ asledn´ au ´drˇzba metadat. Granularita se totiˇz projev´ı i v pˇr´ıpadˇe, kdy metadata zastaraj´ı nebo je bude nutn´e transformovat do jin´e podoby. Pro dalˇs´ı u ´roveˇ n strukturov´an´ı a sjednocen´ı metadat mohou b´ yt pouˇzity n´ astroje jako jsou ˇr´ızen´e slovn´ıky, systematick´e slovn´ıky, thesaury, datov´e slovn´ıky a dalˇs´ı. 3
2.1.3
Standardy
Standardizac´ı metadat se zab´ yvaly pˇredevˇs´ım American National Standards Institute (ANSI) a International Organization for Standardization (ISO). Z´ akladn´ım standardem je ISO/IEC 11179-1:2004 [11] a souvisej´ıc´ı standardy ISO/IEC 11179 [10]. Standard se zab´ yv´a definic´ı metadat a neposkytuje zm´ınku o konkr´etn´ım strukturov´an´ı nebo manipulaci s metadaty. Definuje pojem metadata jako data o kontejneru pro data a jedn´a se o jednoduchou datovou poloˇzku, kter´ a neobsahuje ˇza´dn´e komplexn´ı struktury.
2.1.4
S´ emantick´ y web
Dalˇs´ım subjektem zab´ yvaj´ıc´ım se metadaty a popisem zdroj˚ u je World Wide Web Consorcium (W3C), kde je zˇrejm´a orientace na webov´e str´anky uˇz z n´ azvu konzorcia. W3C Metadata Activity definuje metadata jako strojovˇe zpracovateln´e/srozumiteln´e informace pro web (machine-understandable information). V´ ysledkem W3C Metadata Activity byl Resource Description Framework (RDF) pro vyj´adˇren´ı a uplatnˇen´ı metadat o informac´ıch na webu – model a moˇznosti z´ apisu metadat. Snaha W3C Metadata Activity byla pozdˇeji nahrazena W3C Semantic Web Activity, kde v´ yvoj RDF pokraˇcoval.
2.2
Resource Description Framework
Resource Description Framework (RDF) lze volnˇe pˇreloˇzit jako syst´em pro popis zdroj˚ u. Jedn´ a se o model pro v´ ymˇenu dat na webu. V´ yhodou je moˇznost sluˇcov´an´ı dat i v pˇr´ıpadˇe odliˇsn´ ych z´ akladn´ıch sch´emat a podporuje v´ yvoje sch´emat v ˇcase bez potˇreby zmˇen u c´ılov´eho klienta. [25] RDF rozˇsiˇruje propojov´an´ı dokument˚ u zn´am´e z webov´ ych str´anek. Pouˇz´ıv´ a Uniform Resource Identifier (URI) pro pojmenov´an´ı zdroj˚ u – zdrojov´eho i c´ılov´eho. Pro pojmenov´an´ı vazeb mezi zdrojov´ ym a c´ılov´ ym zdrojem pouˇz´ıv´ a tak´e URI. Toto se oznaˇcuje jako trojice (triple). Z ilustrace je zˇrejm´e, ˇze tento jednoduch´ y princip RDF umoˇzn ˇuje bez probl´emu sd´ılet metadata s r˚ uznou granularitou mezi r˚ uzn´ ymi aplikacemi. Spojov´a struktura pˇredstavuje pojmenovan´ y graf. Hrany grafu reprezentuj´ı pojmenovanou vazbu mezi dvˇema zdroji – uzly. Vizualizace RDF jako graf je nejsnazˇs´ı moˇznost´ı jak tento model pochopit. Na obr´ azku 1 je re´ aln´ y pˇr´ıklad ilustruj´ıc´ı vizualizaci RDF dat grafem. Pro jednoduˇ chost nejsou uvedeny u ´pln´e URI. Cervenˇ e jsou uvedeny tˇr´ıdy, svˇetle modr´a barva je ˇ pro instance tˇr´ıdy, bez barvy jsou uvedeny hodnoty atributu. Sipky ukazuj´ı pojmenovan´e vztahy. Z obr´ azku napˇr. vid´ıme, ˇze existuje pacientka P atient#1, jmenuje se N oN ame 1 ve vˇeku 76 let a mˇela bl´ıˇze nespecifikovanou c´evn´ı mozkovou pˇr´ıhodu Stroke#s1.
2.3
Medic´ınsk´ a data
V´ yzkum c´evn´ı mozkov´e pˇr´ıhody, kter´ ym se zab´ yv´ame a pro nˇejˇz je prim´ arnˇe v´ yzkumn´ y informaˇcn´ı syst´em navrhov´an, je zaloˇzen na medic´ınsk´ ych datech re´aln´ ych pacient˚ u a obsahuje klinick´a terapeutick´a a obrazov´a data. Uveden´ a data jsou heterogenn´ı a neexistuje jeden datov´ y form´at, kter´ y by byl uˇcen pro jejich 4
Obr´azek 1: Pˇr´ıklad RDF dat zobrazen´ ych ve formˇe grafu pˇrenos a uchov´an´ı. Pro klinick´a a terapeutick´a data jsou urˇceny form´aty DASTA a HL7. Pro obrazov´a vyˇsetˇren´ı je pouˇz´ıv´ an DICOM form´at. Jedn´ a se napˇr. o vyˇsetˇren´ı CT, MR, SONO, apod. Mimo tato data jsou informace o l´eˇcbˇe c´evn´ı mozkov´e pˇr´ıhody v registru Safe Implementation of Treatments in Stroke (SITS). Dalˇs´ı, obecnˇe, libovoln´e dokumenty mohou b´ yt pˇriloˇzeny k l´ekaˇrsk´e zpr´ avˇe. Existence a form´at takov´eho dokumentu nemus´ı b´ yt v dobˇe n´ avrhu zn´am. Ve v´ yzkumn´em informaˇcn´ım syst´emu je vˇsak nutn´e m´ıt moˇznost i s nezn´ am´ ym dokumentem manipulovat a popsat jej metadaty, napˇr. vhodn´ ym rozˇs´ıˇren´ım existuj´ıc´ıch metod pro zpracov´an´ı dat.
2.3.1
DASTA
DASTA nebo tak´e DS je zkratka pro Datov´ y standard Ministerstva zdravotˇ e republiky a slouˇz´ı k pˇred´ nictv´ı Cesk´ av´ an´ı dat mezi zdravotnick´ ymi informaˇcn´ımi syst´emy. Prvn´ı verze (DS 1.1) byla do praxe zavedena v roce 1997 a jednalo se o ˇcistˇe textov´ y soubor. N´ asleduj´ıc´ı verze DS 02.01 (rok 2002)a DS 03.01 (rok 2003) vych´ azej´ı z Extensible Markup Language (XML) a pouˇz´ıvaj´ı Document Type Definition (DTD) soubory. Od verze DS 03.01 jsou zavedeny ˇc´ıseln´ıky N´ arodn´ıho zdravotnick´eho informaˇcn´ıho syst´emu (NZIS). Teprve verze DS 04.01 uveden´ a v roce 2007 vyuˇz´ıv´ a XML Sch´ema a jmenn´e prostory. [27] DASTA nyn´ı (DS verze 04.06.05) umoˇzn ˇuje v´ ymˇenu dat o pacientech v rozsahu: • identifikace pacienta, • z´ akladn´ı informace (pˇr´ıjmen´ı, jm´eno, adresa, v´ yˇska, hmotnost, atd.), • urgentn´ı informace (alergie, diagn´oza, krevn´ı skupina), 5
• anamn´eza, • aktu´aln´ı i trval´e diagn´ozy, • l´eky, oˇckov´an´ı, • klinick´e ud´ alosti: – laboratorn´ı vyˇsetˇren´ı, – radiologick´e vyˇsetˇren´ı (RTG, CT, MR, PET,MR, PET, . . . ), – operaˇcn´ı zpr´ ava, – konzilium, – dekurz, – propouˇstˇec´ı zpr´ ava, – ambulantn´ı zpr´ ava, – a dalˇs´ı, • podklady pro vy´ uˇctov´an´ı a manaˇzersk´ y informaˇcn´ı syst´em, • platebn´ı vztahy, pojiˇst’ovny, pracovn´ı neschopnost, • speci´ aln´ı datov´e bloky, • a dalˇs´ı. Klinick´e ud´ alosti byly zavedeny od DS 04.01 vˇcetnˇe jejich f´aze. F´azemi jsou napˇr. objedn´avka realizace, potvrzen´ı objedn´avky, pˇrijet´ı nebo nepˇrijet´ı objedn´avky, zpracov´av´ an´ı zak´azky pr˚ ubˇeˇzn´e a fin´ aln´ı, pˇrevzet´ı zak´azky, pˇred´ an´ı dat tˇret´ı stranˇe (napˇr. IZIP) nebo opravy a storno. DASTA v datov´ ych bloc´ıch vyuˇz´ıv´ a intern´ı a extern´ı ˇc´ıseln´ıky, kter´ ych je pˇres 300. Obsahuj´ı pˇredevˇs´ım ˇc´ıseln´ıky pro NZIS a blok ˇc´ıseln´ık˚ u pro laboratorn´ı komplement ˇ s N´ arodn´ım ˇc´ıseln´ıkem laboratorn´ıch poloˇzek (NCLP). [27] ˇ e republice. V sousedn´ı Z´ asadn´ım nedostatkem je pouze n´ arodn´ı podpora v Cesk´ Slovensk´e republice je DASTA vyuˇz´ıv´ an, protoˇze jsou pouˇzity informaˇcn´ı syst´emy ˇ e republiky, kter´e tento standard implementuj´ı. Ofici´ z Cesk´ aln´ı podpora DASTA na Slovensku chyb´ı. Ze strany DASTA vˇsak byly zaˇrazeny datov´e bloky speci´ alnˇe pro pouˇzit´ı ve Slovensk´e republice. V ostatn´ıch zem´ıch EU stejnˇe jako mimo EU nen´ı DASTA vyuˇz´ıv´ an v˚ ubec. [27]
2.3.2
HL7
Health Level Seven (HL7) je neziskov´a organizace zab´ yvaj´ıc´ı se v´ yvojem mezin´ arodn´ıch zdravotnick´ ych standard˚ u. HL7 organizace vyv´ıj´ı stejnojmenn´ y konceptu´aln´ı standard, standard pro dokumenty, aplikaˇcn´ı standardy a standardy pro v´ ymˇenu zpr´ av. Uveden´e standardy, n´ avody a pˇr´ıruˇcky maj´ı za u ´kol zjednoduˇsit a sjednotit komunikaci mezi rozliˇcn´ ymi zdravotnick´ ymi syst´emy. [9] Pro n´ as je v´ yznamn´ y Clinical Document Architecture (CDA), kter´ y je pouˇz´ıv´ an pro v´ ymˇenu dokument˚ u jako jsou l´ekaˇrsk´e zpr´ avy, pozn´amky l´ekaˇre a dalˇs´ı materi´ aly. CDA je standard vyuˇz´ıvaj´ıc´ı Extensible Markup Language (XML) urˇcen´ y ke specifikaci k´odov´an´ı, struktury a s´emantiky klinick´ ych dokument˚ u. CDA dokument obsahuje povinn´e textov´e a nepovinn´e strukturovan´e ˇca´sti. Povinn´e textov´e ˇca´sti dokument obsahuje kv˚ uli ˇcitelnosti ˇclovˇekem. Strukturovan´e ˇca´sti 6
z´ avis´ı na k´odov´ ych syst´emech jako jsou Systematized Nomenclature of Medicine– Clinical Terms (SNOMED CT) a Logical Observation Identifiers Names and Codes (LOINC). Strukturovan´e ˇca´sti jsou urˇceny pro snadnou strojovou interpretaci dokumentu. [5]
2.3.3
DICOM
Digital Imaging and Communications in Medicine (DICOM) je standard pro distribuci, v´ ymˇenu a zobrazov´an´ı medic´ınsk´ ych obrazov´ ych vyˇsetˇren´ı nez´avisle na jejich p˚ uvodu. DICOM umoˇzn ˇuje v´ ymˇenu mezi poˇc´ıtaˇci i technick´ ym vybaven´ım jako je poˇc´ıtaˇcov´a tomografie, magnetick´a rezonance a dalˇs´ı. DICOM m˚ uˇze uchov´avat mnoˇzstv´ı r˚ uzn´ ych obrazov´ ych i neobrazov´ ych (napˇr. sign´aly) dat. Jedn´ a se velmi popul´ arn´ı form´at pro reprezentaci a pˇrenos radiologick´ ych sn´ımk˚ u a vyˇsetˇren´ı. [17] DICOM je bin´ arn´ı soubor sloˇzen´ y z nˇekolika atribut˚ u zahrnuj´ıc´ı poloˇzky jako je ID sn´ımku, ID pacienta, jm´eno pacienta, modalita, datum a ˇcas (studie, s´erie i konkr´etn´ıho sn´ımku), protokol, popis s´erie, pozici sn´ımku, zp˚ usob zobrazen´ı, tlouˇst’ku ˇrezu, rozmˇery sn´ımku a pˇredevˇs´ım vlastn´ı sn´ımek – obrazov´a data. Obvykle kaˇzd´ y soubor pˇredstavuje jeden prost´ y sn´ımek. Ve skuteˇcnosti form´at DICOM podporuje v´ıce sn´ımk˚ u, takˇze podporuje i filmov´e smyˇcky (cine-loop). Obrazov´a data mohou b´ yt ve tˇrech nebo ˇctyˇrech rozmˇerech a mohou b´ yt komprimov´ana ˇradou standard˚ u – JPEG, bezztr´ atov´ y JPEG, JPEG2000 a Run-Length Encoding (RLE). Dokonce m˚ uˇze b´ yt pouˇzita LZW komprese na vˇsechna obsaˇzen´a data.
2.3.4
SITS
Safe Implementation of Treatments in Stroke (SITS) je akademick´a, neziskov´a a mezin´ arodn´ı iniciativa pro spolupr´aci zdravotnick´ ych odborn´ık˚ u pro zrychlen´ı klinick´ ych pokus˚ u v akutn´ı l´eˇcbˇe a prevenci mrtvice. Registr SITS poch´ az´ı z Karolinska ˇ edsku, ale do s´ıtˇe registru SITS pˇrisp´ıv´ Instituter ve Sv´ a ˇsirok´a skupina nemocnic ˇ e republiky. Registr SITS inicioval interakz cel´eho svˇeta vˇcetnˇe nemocnic z Cesk´ tivn´ı internetov´ y registr tromb´ ozy slouˇz´ıc´ı klinick´ ym centr˚ um ke sledov´an´ı jejich vlastn´ı l´eˇcebn´ ych v´ ysledk˚ u a moˇznost porovn´an´ı s ostatn´ımi centry v zemi i mimo n´ı. [23] Pro naˇse potˇreby povaˇzujeme registr SITS za d˚ uleˇzit´ y, protoˇze obsahuje klinick´e a l´eˇcebn´e z´ aznamy ve strukturovan´e podobˇe. Obsahuj´ı terapeutick´e z´ aznamy, reakci l´eˇciv, sk´ orov´an´ı stavu pacienta podle National Institutes of Health (NIH) stupnice, popis sn´ımk˚ u poˇc´ıtaˇcov´e tomografie (CT) a magnetick´e rezonance (MR), popis pˇr´ıˇcin u ´mrt´ı a mnoho dalˇs´ıch.
2.3.5
Ostatn´ı
Pro rozˇs´ıˇren´ı v´ yzkumn´eho zamˇeˇren´ı navrhovan´eho informaˇcn´ıho syst´emu v budoucnu je nutn´e zahrnout i podporu pˇredem nezn´ am´ ych datov´ ych form´at˚ u. Je zˇrejm´e, ˇze nebude moˇzn´e nezn´ am´e soubory zpracov´avat a analyzovat bez doplnˇen´ı potˇrebn´ ych n´ astroj˚ u do informaˇcn´ıho syst´emu. Mˇelo by vˇsak b´ yt re´aln´e i takov´eto soubory uloˇzit a evidovat jejich existenci v z´ akladn´ı moˇzn´e podobˇe – datum vzniku, autor a zdroj, souvisej´ıc´ı dokumenty, atd. Jedn´ım z form´at˚ u, o kter´ y by mˇela b´ yt v budoucnu podpora rozˇs´ıˇrena, je European Data Format (EDF). Pˇredevˇs´ım jeho novˇejˇs´ı podobu EDF+ z roku 2003.
7
Oproti EDF umoˇzn ˇuje EDF+ textov´e anotace s ˇcasovou znaˇckou, podnˇety (stimuly), pr˚ umˇern´e hodnoty sign´al˚ u, parametry elektrokardiogramu, doˇcasn´a z´ astava d´ ych´ an´ı (apnoea) a dalˇs´ı. D´ale EDF+ podporuje uchov´an´ı elektromyografie, evokovan´ ych potenci´ al˚ u, elektroneurografie, elektrokardiografie a ˇradu dalˇs´ıch vyˇsetˇren´ı. [14]
2.4
Interoperabilita
Interoperabilita je schopnost syst´em˚ u vz´ ajemnˇe si poskytovat sluˇzby a efektivnˇe spolupracovat. Syntax se zab´ yv´a v´ yrazy a jejich skladbou. S´emantika studuje ´ v´ yznamy v´ yraz˚ u. Urovnˇ e interoperability lze odstupˇ novat a v roce 2009 pˇrinesla iniciativa Dublin Core Metadata Initiative [19] v n´ asleduj´ıc´ı podobˇe: 1. Sd´ılen´e term´ıny – jedn´a se o sd´ılen´e slovn´ıky definovan´e v pˇrirozen´em jazyce. 2. Form´aln´ı s´emantika – sd´ılen´e slovn´ıky zaloˇzen´e na form´aln´ı s´emantice. Jsou definov´any vztahy mezi term´ıny a pravidla pro pouˇzit´ı v´ yrazu. Umoˇzn ˇ uje automatick´e odvozov´an´ı (logical inferences). Bez ohledu na nativn´ı k´odov´an´ı, specifikace m˚ uˇze b´ yt oznaˇcena jako s´emanticky interoperabiln´ı, kdyˇz je zajiˇstˇeno u ´pln´e mapov´an´ı na RDF trojice (napˇr. z XML souboru pouˇzit´ım Gleaning Resource Descriptions from Dialects of Languages transformac´ı). 3. Sd´ılen´e form´aln´ı slovn´ıky, kter´e si mohou strany vymˇen ˇ ovat a poskytuj´ı z´ akladn´ı validaci a v´ ymˇenu z´ aznam˚ u s metadaty. 4. Sd´ılen´e form´aln´ı slovn´ıky vˇcetnˇe definovan´ ych struktur´aln´ıch omezen´ı nad slovn´ıky.
8
3
Aktu´ aln´ı stav a souvisej´ıc´ı pr´ ace
3.1
Stav DASTA vs. HL7
ˇ e republice DASTA je vyuˇz´ıv´ an ve zdravotnick´ ych informaˇcn´ıch syst´emech v Cesk´ ˇradu let a vˇsechny tyto informaˇcn´ı syst´emy jej podporuj´ı, ale o jednotnosti implementace nem˚ uˇze b´ yt ˇreˇc. Podkladem pro toto tvrzen´ı je pr˚ uzkum z u ´ nora 2011 ˇ em n´ publikovan´ y na Cesk´ arodn´ım f´oru pro eHealth. [26] • osloveno 50 firem • odpovˇedˇelo 11 tv˚ urc˚ u NIS (Nemocniˇcn´ı IS), 8 tv˚ urc˚ u LIS (L´ekaˇrsk´ y IS) a 3 tv˚ urci AIS (Ambulantn´ı IS) Ze z´ uˇcastnˇen´ ych 8 tv˚ urc˚ u L´ekaˇrsk´ ych informaˇcn´ıch syst´em˚ u jsou detaily n´ asleduj´ıc´ı. • Implementov´any verze DS 3.10 aˇz 3.15. • Z´ asadn´ı u ´pravy proveden´e v DS 3.14 provedly 2 firmy. • Webov´e sluˇzby pro aktualizaci slovn´ık˚ u pouˇz´ıvaj´ı pouze 2 firmy. • Verzi DS 4 implementovala pouze 1 firma a ostatn´ı ˇcekaj´ı, aˇz bude DS 4 poˇzadov´ano uˇzivateli. Z uveden´eho v´ yˇctu a verz´ı DS 3 je zˇrejm´e, ˇze v LIS jsou pouˇz´ıv´ any historick´e datov´e standardy z roku 2006 aˇz po aktu´aln´ı z roku 2011. Probl´emem je chybˇej´ıc´ı legislativn´ı podpora DASTA a ˇc´ıseln´ık˚ u, kdy nen´ı kladen ˇza´dn´ y tlak na tv˚ urce ani uˇzivatele IS. [26] Dalˇs´ım negativem DASTA je neexistuj´ıc´ı mezin´ arodn´ı podpora. Standard je pops´ an pouze v ˇcesk´em jazyce. Dokonce datov´e elementy a atributy jsou v ˇceˇstinˇe (bez ˇ sen´ım by bylo prov´est revizi DASTA standardu a vˇse pojmenovat diakritiky). Reˇ v anglick´em jazyce. Vznikla by zcela nov´a verze standardu. S jej´ım nasazen´ım by ke zlepˇsen´ı bez legislativn´ı opory a vynucen´ı si reflektov´an´ı aktu´aln´ı verze standardu tak´e nedoˇslo. Dalˇs´ı nev´ yhodou by byla nutnost konverze st´avaj´ıc´ıch dokument˚ u na novou verzi standardu. ˇ e republice obˇcansk´e sdruˇzen´ı jehoˇz c´ılem je prosazov´an´ı Pro HL7 existuje v Cesk´ ˇ standard˚ u HL7 v Cesk´e republice prostˇrednictv´ım diskusn´ıho prostoru, osvˇety a ˇ a republika je v´ yuky a vytv´aˇren´ım n´ arodn´ıho pˇrizp˚ usoben´ı a pˇrekladu. HL7 Cesk´ mezin´ arodn´ı pˇridruˇzenou organizac´ı Health Level Seven (HL7 International Affiliˇ e repubate). Podpora HL7 je v jedin´em nemocniˇcn´ım informaˇcn´ım syst´emu v Cesk´ lice. [24]
3.2
Form´ at SITS-XML
Komplikac´ı pˇri pr´aci l´ekaˇre se SITS registrem je v nemoˇznosti jednoduch´ ym zp˚ usobem pˇreb´ırat data zpˇet, data vhodnˇe vizualizovat nebo nad nimi prov´adˇet napˇr. testov´an´ı hypot´ez. Veˇsker´ a do registru vyplnˇen´a data jsou pˇr´ıstupn´ a pouze ve formˇe webov´e str´anky. To je d˚ uvodem, proˇc data transformujeme z webov´e str´anky do vlastn´ıho form´atu SITSXML s XSD sch´ematem. Soubor ve form´atu SITS-XSD pouˇz´ıv´ ame jako vstupn´ı vedle form´at˚ u DASTA, HL7 a DICOM. 9
Pro uvedenou transformaci jsem vyuˇzil z´ akladn´ıch n´ astroj˚ u dostupn´ ych na operaˇcn´ıch syst´emech GNU/Linux. Kombinace n´ astroj˚ u wget, links, sed, csplit, cut a paste poslouˇzila pro tento pˇrevod. N´ azvy element˚ u jsou transformov´any z webov´e str´anky. Realizovan´e ˇreˇsen´ı je pˇres rok v ostr´em provozu a osvˇedˇcilo se jako bezprobl´emov´e i v pˇr´ıpadˇe, kdy SITS registr zmˇen´ı strukturu dat. Listing 1: Uk´ azka SITS-XML form´atu souboru < s i t s>
T r e a t m e n t F i l e>CZUHP2006053001 B a s e l i n e
A s p i r i n 7 5 M g O v e r D a y>No B a s e l i n e
D i p y r i d a m o l e S l o w R e l e a s e>No B a s e l i n e
C l o p i d o g r e l>No B a s e l i n e
T r e a t m e n t F i l e>
A s p i r i n 7 5 M g O v e r D a y> D i p y r i d a m o l e S l o w R e l e a s e>
C l o p i d o g r e l>
O t h e r A n t i p l a t e l e t>No B a s e l i n e
S y s t o l i c B l o o d P r e s s u r e>125 B a s e l i n e
O t h e r A n t i p l a t e l e t> S y s t o l i c B l o o d P r e s s u r e>
D i a s t o l i c B l o o d P r e s s u r e>73 B a s e l i n e
D i a s t o l i c B l o o d P r e s s u r e>
G l u c o s e>5 . 4 B a s e l i n e
T o t a l C h o l e s t e r o l>5 . 4 B a s e l i n e
G l u c o s e> T o t a l C h o l e s t e r o l>
W e i g h t M e a s u r e d>58 B a s e l i n e
W e i g h t M e a s u r e d>
CTD o n e>Yes Ba se l i n e
C T D a t e a n d t i m e>2006−01−14 T 1 0 : 2 0 : 0 0 : 0 0 B a s e l i n e
CTD o n e>
C T C u r r e n t I n f a r c t >No B a s e l i n e
C T D e n s e A r t e r y S i g n>Yes B a s e l i n e
C T D e n s e A r t e r y S i g n>
C T P e r f u s i o n D e f i c i t>Yes B a s e l i n e