Úložiště dat a metadat EEG/ERP experimentů Petr Ježek Katedra informatiky a výpočetní techniky Západočeská univerzita v Plzni, Univerzitní 8
[email protected]
Abstrakt Práce si klade za cíl zhodnotit obecné problémy týkající se uložení dat získaných měřením mozkové aktivity (EEG/ERP) a popsání těchto dat vhodnými metadaty. V současné době neexistuje jednotný dostatečně obecný formát, který by byl pro EEG záznamy dostupný. Výsledkem autorovy práce je návrh datového úložiště, které umožňuje data ukládat, snadno spravovat a zpětně se na ně dotazovat. Datové úložiště je základem aplikace, která bude otevřená světové vědecké komunitě tak, aby získaná data byla snadno sdílena jak vědeckými pracovišti, tak například nemocničními zařízeními. Důležitým aspektem práce je návrh datových konvertorů z/do používaných formátů. Modularita celého systému zajistí snadné přidání nového konvertoru.
1
Úvod
Měření mozkové aktivity zahrnuje sběr a zpracování velkého množství různých dat, která jsou jednotlivými měřeními získávána. Z toho vyplívá potřeba tyto data efektivně uchovávat, zpravovat a dále zpracovávat. Pro správu takových záznamů je potřeba navrhnout robustní datové úložiště, které společně s vhodným obslužným softwarem umožní pokrýt veškeré kladené požadavky. Se zpracováním dat velmi úzce souvisí vzájemná výměna těchto dat mezi pracovišti jak lékařskými, tak vědeckými. Z toho důvodu bylo nutno navrhnout systém umožňující data publikovat veřejnosti. Uživatelé systému mají možnost uložená data ne jenom získávat, ale také do něj vkládat data vlastní, data získaná z vlastních experimentů. Z tohoto důvodu musí být nad databází přesně definovaný jednotný formát, který poskytne uživateli rozhraní pro vkládání vlastních dat. Software v neposlední řadě také zajišťuje autorizovaný přístup k datům. Autorizovaný přístup zajistí, ochranu osobních údajů uložených záznamů. Aplikace nebude uchovávat žádná citlivá data, jako jsou například rodná čísla osob, jelikož se jedná o citlivé osobní údaje, které nejsou pro potřeby výzkumu třeba uchovávat.
Uživatel by si měl stáhnout jenom samotná data, tak aby nevěděl žádné údaje o měřené osobě (kromě obecných informací jako jsou věk apod.), tak aby nedošlo k rozporu s legislativou ČR či EU a aby nebylo porušeno lékařského tajemství.
2
Analýza měření EEG/ERP
Před začátkem návrhu aplikace bylo potřeba se podrobně seznámit s tím, jak probíhá měření EEG/ERP. Živý mozek při své činnosti provází změny iontových proudů, které se mohou projevovat na povrchu hlavy jako změny elektrického potenciálu. Mozek při své aktivitě tedy vytváří na svém povrchu elektromagnetické napětí, odtud název ElektroEncefalografie (EEG). Pro měření se kterému se říká používá speciální přístroj, elektroencefalograf. Pořízenému záznamu se říká Elektroencefalogram. K elektroencefalografu je připojena sada elektrod, které se umístí na hlavu pacienta a tyto elektrody jsou schopny elektrické napětí zaznamenat a změřit. Měřená napětí jsou poté vzorkována A/D převodníkem, čímž se získá vektor číselných hodnot pro každou z elektrod. Elektroencefalografie pracuje s mozkem jako celkem a neposkytuje specifickou informaci o jednotlivých mozkových analyzátorech. Stejným způsobem se měří i tzv. „Evokované potenciály“, někdy také označované jako „Technika vyvolaných odpovědí“, v angličtině známé jako: „Event Related Potencials (ERP)“. Rozdíl je, že pro měření je použito menší množství elektrod než u klasického měření a také samotné měření probíhá mnohem kratší dobu. EEG měření trvá řádově hodiny na rozdíl od ERP, které trvá řádově minuty až desítky minut. Hlavním významem ERP je měření prováděné za účelem zjištění reakce lidského mozku na určitý stimul. To znamená, že na měřenou osobu po dobu měření působí určité předem definované stimuly (např. audio – zvuky či video – snímky, fotografie, sada čísel, písmen apod.) a zkoumá se odezva mozku na daný signál.
3
Problémy neuroinformatických dat a databází
Neuroinformatické databáze a objemy dat, které je potřeba ukládat, se stále zvětšují, s tím souvisí i zvětšení rozsahu pole působnosti jak veřejně publikovaných tak i nepublikovaných dat. Cílem je vytvářet neuroinformatické databáze obecné a přístupné odborné veřejnosti. Databáze je třeba vytvářet standardizované a veřejně dostupné jak vědecké komunitě, tak lékařským pracovištím, ale i laické veřejnosti. Pokud jsou databáze obecné, data se dají snadno vyhledávat a získávat. Mezinárodní vědecké společnosti sice podporují vývoj a využití těchto zdrojů, ale příliš se nezabývají dlouhodobou podporou. Jakmile byly databáze vytvořeny, vyvstaly otázky, kdo z těchto zdrojů dat může profitovat, jak budou udržovány, jaký bude datový model, jaká bude jejich organizace a jak budou schopny spolupracovat s jinými datovými zdroji. Nedostatečná podpora standardizace může znamenat, že databáze nebudou dostatečně udržované jako trvalé zdroje neuroinformatických dat. Obhajoba snah standardizace a dostupnosti databází je hlavním cílem této práce, dále je potřeba zkoumat, jak mohou takové databáze maximalizovat svou dlouhodobou udržitelnost, být zajímavé pro uživatele a jak se mohou propojit s jinými datovými zdroji. Práce zkoumá, jak může být databáze vytvořena, aby se stala obecnou, veřejně přístupnou a dlouhodobě udržitelnou. Práce pátrá po těchto problémech a popisuje doporučení k návrhu databázového celku. Problému neuroinformatických databází se věnuje publikace. (1)
4
formát EDF (2), který však není celosvětově rozšířen a přijat jako standardizovaný formát. Tato práce nabídne možnost ukládání dat jednotným standardizovaným způsobem. Je třeba poznamenat, že měření mozkové aktivity není teoreticky časově nijak omezeno, je tedy potřeba počítat s možností ukládat velké objemy dat.
5
Problém všech EEG/ERP dat je jejich popsání vhodnými metadaty. Zde je problém ještě patrnější než u binárních dat. Datové formáty v sobě definují pouze omezenou množinu informací, které dané měření popisují. V současné době neexistuje žádný standard, který by definoval, které informace jsou povinné uvádět pro jednotlivá měření. Se špatným, případně vůbec žádným popisem dat vhodnými metadaty, je úzce spjata otázka dlouhodobé udržitelnosti a schopnosti spravovat rozsáhlá data. Je třeba si uvědomit, že čím více narůstá množství dat získaných během měření, tím více narůstá i potřeba umět data třídit, organizovat, seskupovat do skupin a snadno v nich vyhledávat.
6
Řešení problému
Před vlastním návrhem řešení problému bylo potřeba pečlivě vyšetřit všechny potřebné kroky, které je třeba analyzovat, poté s nimi počítat v návrhu. Jsou to zejména: • •
EEG/ERP data
Data získávaná měřením EEG/ERP jsou v obecné rovině data získaná z výstupu analogově-číslicového převodníku. Význam těchto dat, tedy jejich popis, je dán datovým formátem, který je pro dané měření použit. Datový formát je prakticky vždy spojen s konkrétním hardwarem, na kterém je měření prováděno. Dodavatel zařízení je zároveň dodavatelem datového formátu. Datové formáty jsou v drtivé většině komerční, jejich popis není volně dostupný, případně modifikovatelný. Datové formáty jsou různé pro různá zařízení z důvodu neotevřenosti datových formátů i pro jejich čtení či další zpracování, je zpravidla nutné zakoupit příslušný software dodávaný dodavatelskou firmou formátu. EEG/ERP data jsou binární data, specifikace formátů obecně není volně dostupná. V současné době neexistuje žádný standard, který by byl přijat širokou veřejnou vědeckou komunitou. Jistým pokusem o standardizaci je
ERP metadata
• • • • •
7
Návrh dostatečně robustního datového úložiště. Sjednotit existující datové formáty, navrhnout jednotný, zpětně kompatibilní. Popsat měřená data metadaty. Navrhnout přesný výčet metadat. Poskytnout prostor pro doplnění vlastních metadat. Zpřístupnění dat veřejnosti Zachovat kompatibilitu existujících formátů.
Návrh metadat
Návrh metadat je důležitou částí celé práce, to obnáší co nejpřesnější definici informací, které popíší dané měření a poskytnou dostatek informací pro uživatele, kteří k nim budou v budoucnu přistupovat. V mé práci byly při návrhu metadat využity převážně zkušenosti s měřením v naší laboratoři na katedře, případně zkušenosti z jiných vědeckých pracovišť.
8
•
Dělení metadat
Do každého měření může jak přímo, tak i nepřímo vstupovat mnoho proměnných faktorů. Při samotném návrhu se metadata rozdělila na několik skupin, které jsem definoval jako: • • • • • •
9
Informace spjaté se scénářem měření. Informace popisující měřenou osobu. Údaje o osobě, která měření provedla. Informace popisující dané měřící zařízení Působení okolních vlivů. Samostatnou skupinou jsou metadata popisující samotná binární data.
Širší kontext metadat
V předchozím textu je uvedeno základní členění metadat, další text popíše tato data v širším kontextu.
9.1
Scénář měření
Každé měření probíhá dle předem stanoveného scénáře. Jak má takový scénář vypadat, není předem známo. V podmínkách naší laboratoře máme k tomuto účelu vyvinutou vlastní aplikaci, která umožňuje scénář spouštět. Šablona scénáře je popsána v XML souboru. Atributy scénáře musí být: • • • •
9.2
Jméno scénáře Délka scénáře Šablona scénáře Popis scénáře
Měřená osoba
Informace o osobě, kterou měříme daným scénářem, jsou pro většinu měření klíčové (3). Výsledky měření totiž do značné míry může ovlivnit například, věk, případně nálada, různé oční či sluchové vady apod. Aplikace definuje následující atributy: • • • • • • •
Jméno Příjmení Pohlaví Datum narození Kontaktní údaje, jako je telefon a email Oční či sluchové poruchy Přidání libovolné poznámky k osobě, pokud obsluha uzná za vhodné ji uvést
Poskytuje prostor pro rozšíření o další přídavné atributy
Jelikož očních a zrakových postižení může být celá řada a pro snadné automatizované zpracování potřebuje být různých skupin zdravotních postižení konečná dostatečně malá množina, je aplikace postavena tak, že uživatel bude mít k dispozici množinu možných zdravotních očních či sluchových postižení, ze které vybere jednu či více takových, které odpovídají poruše měřené osoby.
9.3
Osoba, která provádí měření
Protože bývá potřeba dohledat i to, kdo které měření provedl, aplikace uchovává informace i o této osobě. U měřené osoby jsou prakticky využitelné informace o jméně a kontaktních údajích (email, telefon), případně zkušenost měřené osoby. V praxi, obzvláště na vědeckých pracovištích mohou působit lidé, kteří měření provádějí a zároveň při jiných experimentech se jej sami účastní, jako měřené osoby. Návrh aplikace tedy měřenou a měřící osobu charakterizuje shodnými parametry, pouze uchovává odkaz na dané měření a aktuální roli osoby v daném měření.
9.4
Měřící zařízení
Uvést měřící zařízení je vhodné právě z důvodu nekompatibility výstupních formátů těchto zařízení. Pokud je u každého měření uvedeno, jakým zařízením bylo provedeno, je snadné odvodit i výstupní formát tohoto zařízení, pokud je známý. Jelikož měřících zařízení může být rovněž celá řada, uživatel má k dispozici seznam dostupných zařízení, ze kterých si uživatel vybere to, na kterém dané měření provedl a to se zaznamená.
9.5
Působení okolních vlivů
Na měření mohou působit vnější vlivy, které přímo s měřením nesouvisí, ale mohou jej nějak ovlivnit. Např. počasí může ovlivnit psychickou pohodu měřené osoby, tedy aktuální počasí bude také, pro dané měření, ukládáno. Popsání aktuálního počasí by nemuselo být exaktní, aplikace opět nabízí seznam typů počasí, které uživatel může doplnit o vlastní poznámku.
9.6
Metadata binárních dat
Samotná binární data musí být popsána metadaty. Metadata specifikují jakýkoliv popis, formátu, který je potřebný znát při jeho načítání a zpracování.
10 Návrh datového úložiště Datové úložiště musí být schopno pracovat s velkými objemy dat a také s velkými počty záznamů z jednotlivých měření. Zároveň musí být možno ve velkém počtu záznamů snadno vyhledávat na základě zvolených kritérií. Datové úložiště musí zajistit persistenci záznamů, tedy snadné přidružení metadat k jejich datům. Pro potřeby aplikace se ukázalo jako vhodné použít relační databázi. Relační databáze snadno zajistí persistenci záznamů a rovněž velké objemy dat nejsou pro dnešní databázové servery problém.
10.1 Návrh relačního modelu Relační model datového úložiště reflektuje požadavky, které vyplynuly z návrhu metadat. Ve schématu jsou zavedeny tabulky pro: • • • • • • • •
Konkrétní měření Hardware Oční vady Sluchové vady Osoby Binární data z měření Scénář Rozkladové a rozšiřující tabulky
11 Aplikační vrstva Nad datovým modelem je vytvořena aplikační vrstva, která je rozdělena do třívrstvé architektury (Model View Controler)1. Persistenci datové vrstvy zajišťuje objektově relační mapování. Mapování objektů na jednotlivé relace je zajištěno frameworkem Hibernate (4). Data z datových objektů jsou předávána jednotlivým kontrolérům, které je zpracovávají, tak aby mohli poskytnout výsledek uživateli.
1
Softwarová architektura, která rozděluje datový model aplikace, uživatelské rozhraní a řídicí logiku do tří nezávislých komponent tak, že modifikace některé z nich má minimální vliv na ostatní.
12 Prezenční vrstva Interakce aplikace s uživatelem je zajištěna z webového rozhraní. Uživatel může přidávat do úložiště nové záznamy jednoduše tak, že vyplní metadata do průvodních formulářů a vloží k nim změřená data. Poté se data odešlou dále do aplikace, která je uloží do úložiště dat. Pokud uživatel potřebuje nějaká data získat, opět mu aplikace poskytne jednoduchý formulář, kde může specifikovat pravidla, na základě kterých chce hledání omezit. Aplikace vyhledá záznamy odpovídající požadavkům uživatele, uživatel si vybere konkrétní záznamy, které chce stáhnout, poté je stáhne.
13 Konvertory datových formátů Protože musí být aplikace schopna uložit do datového úložiště data z rozdílných datových formátů, musí být zajištěny nástroje pro konverzi. Protože formátů je několik a kdykoliv se může na trhu objevit nějaký další, aplikace je připravena, tak aby do ní bylo možno kdykoliv přidat nový konvertor datového formátu. Aplikace definuje rozhraní, které musí být každým konvertorem implementováno. Každý konvertor datového formátu je pak samostatným modulem. Přidání nového konvertoru tak znamená přidání nového modulu do aplikace.
14 Stav projektu V současné době je vytvořeno databázové schéma aplikace, které je nasazené v databázovém serveru. Nad databází pracuje webové rozhraní, které umožňuje plnohodnotnou zprávu dat. Aplikace je nyní nasazena v testovacím prostředí a připravuje se její spuštění v ostrém provozu. Snahou je prosadit používání aplikace ve světovém měřítku. Jedním z kroků bude její prezentace na světovém neuroinformatickém kongresu INCF (5).
15 Závěr V současné době se při zpracování EEG či ERP střetáváme s celou řadou problémů, jedním z nich je právě problém nejen s uložením a spravováním získaných záznamů, ale také s jejich snadnou výměnou mezi pracovišti zabývající se stejnou oblastí.
Přehled veřejně dostupných databází uvádí publikace (6), jedná se však o databáze nejednotné, jak z hlediska datových formátů, tak z hlediska atributů metadat. Ze strany komerčních firem není přílišná snaha tuto situaci řešit, protože by jim tato snaha potenciálně nepřinášela žádný zisk. Já jsem navrhl způsob, jak data ukládat, tak aby se zmiňované problémy co nejvíce minimalizovaly. Jednotný pohled na získaná data poskytuje jejich uložení do relační databáze, čímž je vyřešena i jejich snadná správa. Uložení dat v centrálním úložišti, pak vyřeší jejich snadnou dostupnost a sdílení jednotlivými pracovišti, jak vědeckými, tak lékařskými, ale ne jenom jimi, data mohou být dostupná i laické veřejnosti. Webové rozhraní, poskytuje pohodlnou obsluhu, jelikož prostředí webu je známo většině uživatelů. Uživateli stačí běžný internetový prohlížeč a není nucen instalovat další software na svůj počítač. Aplikace řeší rozdílnost formátů, tak že poskytuje jejich konvertory, které se dají rozšířit o další. Nevyřešenou otázkou zůstává, jak sjednotit data, která produkují jednotlivá měřící zařízení. Vyřešit ji, by pro společnosti vyrábějící tato zařízení znamenalo, zavázat se k použití jednotného celosvětově uznaného formátu. Její řešení je v současné době v nedohlednu. Jistou snahou je pořádání mezinárodní konferencí INCF (1), kde je řešení otázek udržitelnosti neuroinformatických databází jedním z témat. Poděkování: Tato práce byla podporována z projektu GAČR 1191/07.
Literatura [1] 1st INCF congress. Neuroinformatics. [Online] 3 2009. http://neuroinformatics2008.org/. [2] European Data Format EDF specification. European Data Format. [Online] 03 2009. http://www.edfplus.info/specs/edf.html. [3] T. W. Picton, S. B. (2000). Guideline for using human event-related potentials to study cognition: Recording standards and publication criteria. Commitee report . [4] Hibernate.org. Hibernate. [Online] 2 2009. www.hibernate.org. [5] 2nd INCF Congress. Neuroinformatics [Online] 3 2009. http://www.neuroinformatics2009.org/
[6] EEG Database [Online] 3 2009 http://www.tech.plym.ac.uk/spmc/links/biomedi cal/eeg/eeg_database.html