Rok / Year: 2013
Svazek / Volume: 15
Číslo / Issue: 4
Shluková analýza elektrokardiografických signálů ECG cluster analysis Martin Klimek, Jiří Kozumplík
[email protected],
[email protected] Fakulta elektrotechniky a komunikačních technologií VUT v Brně
Abstrakt: Článek se zabývá problematikou klasifikace cyklů elektrokardiografických krátkodobých signálů shlukovou analýzou s využitím borcení časové osy. Teoretická část článku shrnuje dosavadní vývoj a trendy v oblasti této problematiky. Druhou část článku tvoří aktuální stav řešení. Tato část dále srovnává vybrané metody pro analýzu abnormálních cyklů, které lze použít pro rozpoznání cyklů normálních od abnormálních.
Abstract: The article deals with the classification of short-term electrocardiographic signals cluster analysis using dynamic time warping. The theoretical part of the paper reviews recent developments and trends in this issue. The second part consists of the current state of the solution. This section also compares the selected method for analyzing abnormal cycles that can be used in order to sort QRS complexes according to their morphology.
VOL.15, NO.4, AUGUST 2013
Shluková analýza elektrokardiografických signálů Martin Klimek, Jiří Kozumplík Fakulta elektrotechniky a komunikačních technologií VUT v Brně Ústav biomedicínského inženýrství, Kolejní 4, 612 00 Brno Email:
[email protected],
[email protected]
Abstrakt – Článek se zabývá problematikou klasifikace cyklů elektrokardiografických krátkodobých signálů shlukovou analýzou s využitím borcení časové osy. Teoretická část článku shrnuje dosavadní vývoj a trendy v oblasti této problematiky. Druhou část článku tvoří aktuální stav řešení. Tato část dále srovnává vybrané metody pro analýzu abnormálních cyklů, které lze použít pro rozpoznání cyklů normálních od abnormálních.
1 Úvod V poslední době představují lékařské modality širokou škálu metod využívajících různých principů k získání informace o vyšetřované části pacienta. Do sféry zdravotnictví každý den pronikají nové technologie z počítačové a komunikační oblasti, aby mohly uspokojit stále rostoucí požadavky a kladené nároky [1]. Předkládaný článek se zaměřuje na analýzu rytmu signálu EKG. Důležitost EKG signálu jako nástroje pro odhalení různých srdečních chorob je všeobecně známá. Kardiovaskulární onemocnění jsou závažná onemocnění, která postihují velkou část lidské populace a je potřeba je odhalit včas. V dnešní době se vedle hodnocení krátkodobých signálů EKG stále častěji používá tzv. Holterovo vyšetření. Jedná se o dlouhodobé (zpravidla 24 až 48 hodin), neinvazivní měření. Holterovo vyšetření může díky množství získaných dat (řádově desítky tisíc cyklů) odhalit poruchy rytmu, které se v krátkodobém signálu nemusí projevit [2]. Studium souvislostí mezi výskytem specifických poruch srdce a dlouhodobým průběhem signálu EKG se stalo v posledním desetiletí středem zájmu mnoha lékařských kongresů a vědeckých článků v tomto oboru. Detekce výskytů abnormálních cyklů bývá zpravidla automatizována, jelikož při tak velkém záznamu je prakticky nemožné, aby celý záznam kontroloval lékař. Záznam, který obsahuje větší množství dat a vyžaduje lidskou kontrolu, je totiž rizikový na potenciální výskyt chyb způsobených únavou člověka. Z výše zmíněných důvodů se předmětem vědeckých výzkumu staly počítačově založené metody na analýzu EKG. Automatická analýza EKG byla již několikrát reprezentována za použití různých algoritmů. Algoritmy založené na EKG morfologii [3], [4], srdečních intervalech [3] - [6], frekvenční analýze [7], algoritmy založené na využití neuronových sítí a samoorganizující se mapy a sítě [12].
2 Analýza EKG Metodou, která byla použita pro analýzu signálu EKG v této práci, je shluková analýza. Jedná se o vícerozměrnou statistickou metodu. Hlavní podstatou metody je vytvoření shluků, které v sobě obsahují jednotlivé cykly shluknuté na základě vybraných kritérií. Cílem metody je v dané množině nalézt příslušné shluky tak, aby si prvky ve stejném shluku byly navzájem co nejvíce podobné a zároveň se co nejvíce lišily od prvků mimo tento shluk. Každý vybraný srdeční cyklus v daném shluku může být dále reprezentativním prvkem celého shluku. Vytříděním těchto reprezentativních cyklů zkrátíme celkovou časovou náročnost kontroly. Takto upravený signál bývá zpravidla dále analyzován lékařem. Shluková analýza se řadí mezi metody učení bez učitele, což přináší výhodu, že nepotřebujeme žádnou trénovací množinu dat [8]. 2.1 Předzpracování K testování algoritmu byla využita data z knihovny CSE (Common Standards for quantitative Electrocardiography) [13][14], která je na Ústavu biomedicínského inženýrství dostupná a obsahuje klidové signály EKG (dvanáctisvodových i ortogonálních). Protože v signálu EKG se často setkáváme s rušením, které může negativně ovlivnit další diagnostiku, bylo potřeba před samotnou analýzou provést předzpracování signálu a tím potlačit negativní složky. V experimentu jsme potlačili úzkopásmové rušení, kam patří rušení elektrickou sítí (brum) a drift nulové izolinie, který je způsoben nejčastěji pomalými elektrochemickými ději na rozhraní elektroda-tkáň, případně vlivem respirace vyšetřované osoby. K tomuto účelu byla použita dolní propust s mezní frekvencí 70Hz a dále využit algoritmus založený na principu nulování spektrálních čar. Samotná filtrace dále rozebírána není, protože přesahuje rámec tohoto článku. Po filtraci bylo třeba extrahovat ze signálu jednotlivé cykly. K tomuto účelu byl v práci využit detektor QRS založený na vlnkové transformaci, který označil pozici jednotlivých vln R [9],
t R {t R1 , t R 2 ,..., t Rn }
(1)
Nyní známe pozici všech detekovaných vln R. Jednotlivé cykly byly následně roztříděny dle obrázku 1 podle [1].
271
VOL.15, NO.4, AUGUST 2013 které pomocí nastavených vah 2 a 3 zvýhodňuje šikmou cestu v matici, kdy dochází k nejmenšímu zkreslení vybraných cyklů. Původní signály vidíme na obrázku 2, upravené signály na obrázku 3.
Obrázek 1: Lokace cyklů pomocí zjištěné pozice R-vlny. TRi udává pozici i-té R vlny v čase t. Ti poté představuje délku mezi dvěma po sobě jdoucími R-vlnami TRi a TRi+1. Ci je celý konkrétní i-tý cyklus v signálu EKG [2]. Před navazující shlukovou analýzou jsme jednotlivé cykly přizpůsobili na stejnou délku, respektive stanovili podobnost mezi různě dlouhými cykly. Zde bylo využito borcení časové osy (DTW – Dynamic Time Warping) [12]. Jedná se o nelineární metodu, která umožňuje vzájemnou podobnost stanovit. Transformační funkce, která poskytuje přizpůsobení vybraných cyklů, může být určena pomocí lokálních vzdáleností mezi body v rovině (i,j). Vztah (2) znázorňuje vybranou míru pro určení příznakových vektorů. Byla vybrána absolutní hodnota rozdílu N
d (i, j ) rn (i) t n (i ) ,
(2)
n 1
kde d(i,j) je lokální vzdálenost, která tvoří matici I x J lokálních vzdáleností obou cyklů a rn a tn jsou přizpůsobované signály. Abychom získali přiřazení obou cyklů, hledáme uvnitř matice cestu s minimální délkou, která vede z d(1,1) do d(I,J). To je ukázáno ve vztahu (3), který je rozepsán
Dmin min d (i, j ) .
(3)
K získání této minimální cesty bylo nutno systematicky prozkoumat všechny možné varianty cesty. Pro určení optimální transformační cesty se zavádí tzv. akumulovaná vzdálenost Da(i,j), která je definována jako součet hodnot vzdáleností podél cesty. Existuje ovšem mnoho možností výběru okolí, ze kterého se počítá konkrétní hodnota Da. Protože některé cesty jsou předem vyloučeny z důvodů nereálného zkreslení porovnávaných cyklů, postačuje hledat v omezeném prostoru matice. Vztah (4) zobrazuje lokální omezení funkce DTW, které bylo v práci navrženo
Da (i, j 1) 3d (i, j ) Da (i, j ) min Da (i 1, j 1) 2d (i, j ) , D (i 1, j ) 3d (i, j ) a
Obrázek 2: Původní signály před provedením DTW algoritmu. Pro ukázku byl vybrán 1. a 3. cyklus ze signálu MO1_117.
Obrázek 3: Obrázek koresponduje s obrázkem 2 po aplikaci algoritmu DTW. Signály byly zarovnány v čase a přizpůsobeny na stejný počet vzorků. Pokud se při tvorbě matice akumulovaných vzdáleností pohybujeme z levého dolního rohu do pravého horního rohu, pak vzdálenost a tím jejich míra podobnosti, či naopak míra nepodobnosti mezi porovnávanými posloupnostmi je dána číslem v pravém horním rohu matice. Čím je číslo vyšší, tím jsou posloupnosti více nepodobné. Takto vytvoříme kompletní matici vzdáleností pro všechny posloupnosti, která je nezbytná pro samotnou shlukovou analýzu. 2.2 Shluková analýza Dalším krokem je shluková analýza. Protože již máme připravenou matici vzdáleností, můžeme realizovat přímo shlukovou metodu. Zde byla použita metoda SLINK (single linkage) [10], která je tzv. metodou nejbližšího souseda. Z hierarchických metod dávala metoda SLINK nejlepší výsledky. Pro ilustraci příkladu byl vybrán rovněž signál č. 117, který byl již dříve zmíněn. Tento signál je dobře názorný, protože obsahuje 4 podobné cykly, které se v průběhu 3krát opakují. Původní signál lze vidět na obrázku 4.
(4)
Obrázek 4: Signál MO1_117 z databáze CSE. Jedná se o ori-
272
VOL.15, NO.4, AUGUST 2013 ginální signál (svod V2).
Tabulka 1: Srovnání výsledků všech tří algoritmů pro vybraných 22 signálů z databáze CSE.
Protože se jedná o krátkodobé signály, byly ve všech případech vytvořeny i dendrogramy, aby podobnosti mezi objekty byly na první pohled lépe patrné. Vytvořený dendrogram ze signálu W117 lze vidět na obrázku 5, kde je ručně vyznačen práh. Na obrázku vidíme, že podobné cykly patří do jednotlivých ze čtyř hlavních shluků, což v tomto případě koresponduje se správnou klasifikací.
Obrázek 5: Dendrogram po aplikaci metody SLINK, která rozdělila průběhy (1-12) do několika shluků dle jejich vzájemné podobnosti. Tento postup byl aplikován na všech 22 signálech, které byly z CSE databáze vybrány pro výskyt extrasystol.
3 Srovnání Získané výsledky byly srovnány se dvěma algoritmy, které byly na UBMI rovněž testovány. Jedná se o algoritmus vycházející z RR intervalů a tvarových faktorů a dále o algoritmus vycházející z korelační matice [11]. Srovnání úspěšnosti všech tří algoritmů je vidět v tabulce 1. Nejméně úspěšný je algoritmus založený na získání korelační matice, kde jsou vypočítané podobnostní koeficienty (korelační) všech možných dvojic QRS komplexů z analyzovaného signálu. Algoritmus dosáhl úspěšnosti 72% (tj. 16 z 22 signálu bylo klasifikováno správně). Správnou klasifikací rozumíme případ, kdy všechny cykly byly klasifikovány správně, tzn. žádný cyklus není klasifikován do jiného shluku. Algoritmus založený na tvarovém faktoru v kombinaci s RR intervaly dosáhl úspěšné klasifikace v 82%, tj. 18 signálů bylo klasifikováno korektně. Výše popsaný algoritmus založený na dynamickém borcení časové osy dosáhl úspěšné klasifikace v 86% (tj. 19 z 22 signálů). Všechny algoritmy byly v signálech použity na svodu V2, pro který bylo empiricky zjištěno, že vychází nejlépe. U signálu č. 6 a 54 je špatná klasifikace proto, že abnormální cykly jsou okrajové, takže nebyly do analýzy správně zahrnuty. U signálu č. 47 se vyskytují cykly velmi podobného tvaru, takže v následném dendrogramu se nepodařilo jednotlivé cykly správně rozlišit, protože jejich vzdálenost byla příliš malá. Zde by pomohlo vybrat pro analýzu jiný svod. Stejná analýza byla provedena i s automatickým výběrem počtu shluků (použitím funkce cophenet). Použitím této funkce by se úspěšnost analýzy snížila o 13% (tj. o 3 signály, konkrétně signál W023, W117 a W120).
Signál
RR a FF
Korel. mat.
DTW
W006
špatně
špatně
špatně
W011
správně
správně
správně
W020
správně
správně
správně
W023
špatně
špatně
správně
W026
správně
správně
správně
W028
špatně
správně
špatně
W034
správně
špatně
správně
W040
správně
správně
správně
W047
správně
špatně
správně
W054
špatně
špatně
špatně
W061
správně
správně
správně
W065
správně
správně
správně
W074
správně
správně
správně
W075
správně
správně
správně
W103
správně
správně
správně
W105
správně
správně
správně
W109
správně
špatně
správně
W112
správně
správně
správně
W115
správně
správně
správně
W117
správně
správně
správně
W120
správně
správně
správně
W122
správně
správně
správně
U algoritmu, založeném na RR intervalem a tvarových faktorech, byla dle autorů nejčastější příčina selhání to, že se v daném signálu vyskytovaly jen QRS cykly podobného tvaru. Tvarové faktory tedy byly podobné, ale standardizace dat hodnoty tvarových faktorů rozprostřela do prostoru, čili vznikly špatné shluky objektů. Další příčinou bylo to, že předcházející abnormální QRS cyklus zvyšoval délku RR intervalu následujícího cyklu. A pokud tento následující cyklus byl také abnormální, tak se mohlo stát, že byl zařazen do shluku normálních cyklů, a to díky zvýšené délce RR intervalu. Poslední příčinou špatné funkce tohoto algoritmu bylo to, že se v signálu nevyskytoval ani jeden normální cyklus, čili nebylo možno s ničím srovnat abnormální cykly [11]. U druhého algoritmu, založeném na korelační matici, byla nejčastější příčina selhání stejná jako u prvního algoritmu. Korelace mezi těmito QRS cykly vyšly všechny vysoké (korelační vzdálenosti malé), čili nebyl žádný výrazný rozdíl ani
273
VOL.15, NO.4, AUGUST 2013 mezi jedinou dvojicí objektů. V některých případech bylo nutné použít jinou shlukovou metodu než UPGMA, i když tato metoda dává nejvěrohodnější výsledky dle Pearsonových korelačních koeficientů. Poslední příčina špatné funkce tohoto algoritmu byla stejná jako u předešlého algoritmu. Nebyl v signálu žádný referenční normální QRS cyklus, u kterého by vycházely nízké hodnoty korelací s abnormálními cykly [11]. Poslední algoritmus, založený na dynamickém borcení časové osy dosáhl nejlepších výsledků a selhal jen ve třech případech. Nejčastější příčinou byla malá tvarová odlišnost extrasystol od normálních QRS komplexů, případně signál, který neobsahoval žádný normální cyklus. Výhodou metody je malá citlivost metody na případ, kdy extrasystoly ovlivňují délku předcházejících cyklů. To znamená, že i když je cyklus před extrasystolou normální, dojde ke zkrácení jeho délky a tím může být jeho analýza znehodnocena.
aberantních vlnách P, které se zahrnou do segmentovaného úseku před QRS, vliv je ovšem nevýznamný. Co se týká výběru nejvhodnějšího svodu k analýze, nelze jednoznačně stanovit, který je nejvhodnější. Dobrým kritériem pro výběr svodu je svod s co nejmenším zašuměním v signálu. Přestože metoda založená na borcení časové osy dosáhla nejlepších výsledků i zde je třeba si uvědomit, že v některých případech rovněž selhala, což může mít při detekci kardiovaskulárních onemocnění velký vliv. Návrhem na zlepšení metody by bylo zkombinovat metodu s hodnocením více parametrů, tzn. nesoustředit se pouze na morfologii QRS komplexu, ale například zavést hodnocení poměru vzdáleností R-R intervalů apod. Další možností, pokud bychom hodnotili pouze extrasystoly jako v této situaci, je nebrat celé srdeční cykly, ale pouze QRS komplexy, čímž by výrazně klesla celková výpočetní náročnost metody.
4 Závěr
5 Literatura
V této práci bylo testováno 22 signálů z knihovny CSE, které obsahují extrasystoly. Cílem bylo pomocí zvolených postupů od sebe oddělit normální a abnormální srdeční cykly na základě rozdílů v morfologii jednotlivých cyklů. Srovnání výsledků metod je vidět v tabulce 1. Algoritmus založený na borcení časové osy dosáhl úspěšné klasifikace v 86%. Při použití automatického počtu shluku by tato úspěšnost byla 73%. Nutno však říci, že zde se jedná o krátkodobé signály. Prvním problémem je, že máme jen velmi malý počet cyklů pro klasifikaci, takže i nepatrné změny mohou vést k rozdílné klasifikaci. Druhým je fakt, že normální cykly se při desetisekundových záznamech nemusí vůbec vyskytnout. Při dlouhodobých signálech by úspěšnost automatického počtu shluků hrála až sekundární roli, protože při Holterovských záznamech je třeba zhodnotit až 100.000 cyklů. V praxi by to v daném případě znamenalo pro lékaře ohodnotit jeden nebo dva cykly (shluky) navíc, což je zanedbatelné. Jedním z hlavních problémů, kterému čelí dnešní automatizované systémy, je velká variabilita tvaru EKG křivky různých jedinců. Zde se setkáváme s problémem, že klasifikátor, který funguje na přípravné databázi, může v praxi selhat [5]. Řešení, které se snaží minimalizovat tento problém je využít co nejvíc testovacích signálů a vytvořit tak velkou databázi. Nicméně i tento přístup má několik úskalí. Bez ohledu na to, jak je databáze velká, nelze pokrýt všechny EKG křivky. Dalším problémem zmíněného řešení je fakt, že složitost třídění při tak velké databázi neúměrně roste. Je třeba si uvědomit, že automatizované algoritmy musí být navrženy tak, aby zohlednily i četné výjimky. Výsledkem jsou pak složitá třídění, která je velmi nákladné vytvořit, udržovat a aktualizovat. Ze zmíněného vyplývá, že snaha je nechat klasifikační algoritmus přizpůsobit individualitě každého pacienta jako tomu bylo i zde, kdy se srovnávají normální a abnormální cykly konkrétního jedince. Závěrem je nutno ještě dodat, že např. při supraventrikulárních extrasystolách v analyzovaných signálech, popřípadě při existenci AV bloků nemusí docházet ke změnám na QRS komplexech. Při takových případech je zbytečné podle shlukové analýzy QRS komplexů hodnotit normální a abnormální cykly, jelikož QRS komplexy jsou z morfologického hlediska všechny stejného typu. Úspěchu by šlo dosáhnout při výrazně
[1] WILLEMS, Jos, Cassiano ABREU-LIMA a Pierre ARNAUD. The diagnostic performance of computer programs for the interpretation of electrocardiograms. The New England Journal of Medicine [online]. 1991, č. 325 [cit. 2013-08-21]. Dostupné z: http://www.nejm.org/doi/pdf/10.1056/NEJM1991121932 52503. [2] CUESTA-FRAU, David, Juan PÉREZ-CORTÉS a Gabriela ANDREU-GARCÍA. Computer Methods and Programs in Biomedicine169260702001451. Computer Methods and Programs in Biomedicine [online]. 2003, č. 72 [cit. 2013-08-21]. Dostupné z: http://www.sciencedirect.com/science/article/pii/S01692 60702001451. [3] YEAP, T.H., F. JOHNSON a M. RACHNIOWSKI. ECG Beat Classification by a Neural Network. Computer Methods and Programs in Biomedicine [online]. 2001, č. 66 [cit. 2013-08-21]. Dostupné z: http://www.sciencedirect.com/science/article/pii/S01692 60700001334 [4] HU, Y. H., W. J. TOMPKINS, J.L. URRUSTI a V. X. AFONSO. Applications of artificial neural networks for ECG signal detection and classification. J Electrocardiol [online]. 1993, č. 26 [cit. 2013-08-21]. Dostupné z: http://www.ncbi.nlm.nih.gov/pubmed/8189150. [5] HU, Y. H., PALREDDY, S. a TOMPKINS, W. J. A patient-adaptable ECG beat classifier using a mixture of experts approach. IEEE Trans.Biomed. Eng., č. 44, 1997, s. 891–900. [6] OSOWSKI, S. a T. L. LINH. ECG beat recognition using fuzzy hybrid neural network. IEEE Trans. Biomed. Eng., č. 48, 2001, s. 1265–1271. [7] SENHADJI, L., G. CARRAULT, J. J. BELLANGER a G. PASSARIELLO. Comparing wavelet transforms for recognizing cardiac patterns. IEEE Eng. Med. Biol. Mag. 1995, č. 14, s. 167–173. [8] STERNICKEL, K. Automatic pattern recognition in ECG time series. Computer Methods and Programs in Biomedicine. 2002, č. 68, s. 109-115.
274
VOL.15, NO.4, AUGUST 2013 [9] VÍTEK, Martin. Automatické rozměření signálu. Brno, 2010. Disertační práce. FEKT VUT. [10] KELBEL, J., ŠILHÁN, D. [online]. 2002 [cit.2012-0428]. Shluková analýza. Dostupné z: http://staff.utia.cas.cz/nagy/skola/Projekty/Classification/ ShlukovaAnalyza.pdf. [11] CHROBÁK, Martin. Shluková analýza. Brno, 2012. Diplomová práce. FEKT VUT. [12] SIGMUND, Milan. Rozpoznávání řečových signálů: přednášky. 1. vyd. Brno: VUT FEKT, ústav radioelektroniky, 2007, 122 s. ISBN 978-80-214-3526-1. [13] The CSE working party. Recommendations for measurement standards in quantitative electrocardiography. European Heart Journal. 1985, č. 6, s. 815-825. [14] WILLEMS, Jos, Pierre ARNAUD a J. VAN BEMMEL. Common standards for quantitative electrocardiography: goals and main results. Methods of Information in Medicine. 1990, č. 29, s. 263-271.
275