cs42
Původní práce
Extrahovatelnost informací z českých lékařských zpráv Karel Zvára1 , Vojtěch Svátek2 1
EuroMISE centrum, Ústav hygieny a epidemiologie, 1. LF UK v Praze, ČR 2
Vysoká škola ekonomická, Praha, ČR
Abstrakt Pozadí: Pro péči o zdraví důležité informace o pacientovi jako je jeho anamnéza, výčet diagnóz, preskripce a možnosti budoucí léčby jsou obvykle obsažené ve volnotextových lékařských zprávách. Získání relevantních informací umožňuje předávání informací lékařům hovořícím jinými jazyky, využití moderních technologií jako jsou upozornění na rozpory s lékařskými doporučeními v reálném čase či sběr dat pro vědecké účely. Cíle: Cílem tohoto článku je shrnout techniky oboru extrahování informací z volných textů a ukázat výsledky, kterých autoři dosáhli. Metody: V experimentu byly použity lexikální analýza a číselníky dostupné v českém jazyce.
Výsledky: Zjišťujeme, že volnotextové lékařské zprávy se natolik liší od obecných textů, že nemohou být zpracovávány stejným způsobem. V češtině dostupné číselníky byly shledány nedostatečnými pro použití jako slovníky pro rozpoznávání odborných termínů. Závěry: Je zapotřebí vyvinout nové slovníky s českými termíny pro obor zdravotnictví. Symbolické techniky byly shledány efektivními pro rozpoznání výrazů jako jsou rodné číslo nebo systolický a diastolický krevní tlak.
Klíčová slova Extrakce informací z textů, české lékařské zprávy, lexikální analýza
Kontakt: Karel Zvára EuroMISE centrum, Ústav hygieny a epidemiologie, 1. LF UK v Praze, ČR Adresa: Kateřinská 32, 121 08 Praha 2, ČR E–mail:
[email protected]
1
Úvod
EJBI 2012; 8(5):cs42–cs46 zasláno: 4. září 2012 přijato: 25. října 2012 publikováno: 22. listopadu 2012
V části 2 shrnujeme taxonomii metod pro extrakci informací jako širší kontext našeho výzkumu (a jako základ pro další práci). V části 3 stručně charakterizujeme české lékařské zprávy. Část 4 poskytuje přehled cílových nomenklatur a datových struktur, do kterých se textové lékařské zprávy mají transformovat pro zajištění plné strojové zpracovatelnosti. Část 5 se zabývá aplikací pro extrakci informací z českých lékařských textů, která stručně shrnuje předchozí práci. Část 6 shrnuje článek.
Problematice převodu volnotextových lékařských zpráv do strukturované formy se obor medicínské informatiky věnuje již několik desetiletí. Je dobře známo, že úsporný způsob, kterým lékaři tvoří zdravotní dokumentaci, vede k častému využití zkratek (vč. akronymů) a k velkému výskytu překlepů. Tyto vlastnosti vedou k problémům při snahách o využití soudobých metod pro extrakci informací z volných textů. Úspěchů již bylo dosaženo při extrahování informací z anglicky psaných textů. 2 Metody pro extrakci informací Výhodou angličtiny je dobrá dostupnost mnoha nástrojů, dostupnost anglických verzí klasifikačních systémů (číselMetody pro extrakci informací můžeme rozdělit do níků), trénovacích korpusů a vcelku pevně daný pořádek dvou skupin podle jejich podúkolů [2], například: slov. Pro mnoho dalších jazyků extrakce informací z lé• Metody pro extrakci pojmenovaných entit. Úkolem kařských textů stále zůstává otevřenou výzvou. těchto metod je najít a anotovat relevantní části Předkládaný výzkum se zaměřuje na lékařské zprávy textu jako jsou jména, kódy, datumy, časy či adresy zapsané v českém jazyce, které jsou ovlivněné také místelektronické pošty. ními zvyky a právním prostředím. Cílem bylo zjistit jaké • Metody pro analýzy koreferencí. Úkolem těchto memnožství relevantních informací lze pro další zpracování tod je nalezení vztahů mezi jednotlivými slovy podle zjistit pomocí automatické analýzy s využitím jednodumorfologie vstupního textu (nikoliv podle předdefichých technik extrakce informací (těch, které nezávisejí novaných vztahů). na trénovacích korpusech). EJBI – Ročník 8 (2012), číslo 5
c
2012 EuroMISE s.r.o.
Zvára, Svátek – Extrahovatelnost informací z českých lékařských zpráv
cs43
• Metody vyplňování šablon. Úkolem těchto metod je vyplnit hodnoty nalezené v textu do předpřipravených šablon. Tyto metody mohou být použité, pokud je známa cílová struktura (šablona), do které se mají údaje vyplňovat.
požadavky na formu a především na strukturování a obsah jednotlivých druhů lékařských zpráv. České lékařské zprávy jsou tak klinickými texty se standardizovanou strukturou. Forma a použitá terminologie jsou do značné míry ovlivněné společným vzděláním lékařům, jejich příslušností k profesní organizaci a jejich • Metody pro extrakci vztahů. Tyto metody jsou povlastním obvyklým záměrem tvořit zdravotní dokumenužité pro extrakci předdefinovaných vztahů mezi extaci nejen jako podklad pro dlouhodobu péči o pacienta, trahovanými entitami. ale také jako důkazní materiál pro případ právních sporů. Podle typu extrakčního algoritmu lze metody pro extrakci informací dělit do dvou skupin: 3.1 Vytváření nových lékařských zpráv • Manuální techniky jsou založené na ručně definoNové lékařské zprávy se obvykle vytvářejí pomocí šavaných pravidlech, obvykle formovaných do kaskád. blon či zkopírováním a následným upravením předchozí Tato skupina obsahuje techniky založené na regulárlékařské zprávy. Důvod pro tento postup je čistě ekononích výrazech. mický. Zkopírování obsahu je rychlé a umožňuje lékaři ne• Trénovatelné techniky mohou zlepšovat své vý- zapomenout uvést povinné informace, které se s časem sledky automaticky nebo pod supervizí. Trénova- příliš nemění – jako rodinnou anamnézu, výčet diagnóz telné techniky obvykle potřebují nějakou supervizi, a podobně. Tato praktika může vést k závažným problépřinejmenším ve formě prvotních trénovacích dat, mům, například k zapomenutí uvedení změn v diagnózách. např. ve formě anotovaného textu. Mezi trénovatelné Podobné problémy se vyskytují i v jiných zemích. [5]. techniky patří bootstrapping (kombinace extrahování a trénování). Jednou z metod bootstrappingu 3.2 Obsah z jiných systémů je „aktivní učení“, kdy systém nabízí supervisorovi k anotaci části textu, jehož anotováním si systém je Některé informace pocházejí z externích systémů ve nejméně jistý. formě, která může být snadno zkopírována. Jde zejména Trénovatelné techniky mohou výt dále rozděleny do tří o laboratorní výsledky, ve kterých řádky obvykle představují jednotlivá měření a sloupce vlastnosti jako jsou název skupin: měřené veličiny, naměřenou hodnotu a referenční rozmezí. • Symbolické techniky obsahují například indukci roz- Takové kopírované texty někdy obsahují jednoduchou grahodovacích stromů (Top-Down Induction of Deci- fiku (tvořenou pomocí znaků). sion Trees - TDIDT), techniku „rozděl a panuj“ („divide and conquer“, shora-dolů) and „odděl a panuj“ 3.3 Další obtíže („separate and conquer“, zespod-nahoru). České lékařské zprávy obsahují mnoho typografických • Pravděpodobnostní techniky obsahují skryté marchyb a zkratek. Toto není typické jen pro české lékařkovské modely (HMM), markovské modely s maxiské zprávy. Jednotlivé zkratky obvykle nejsou jednoznačné mální entropií (MEMM) a podmíněná náhodná pole a k pochopení významu je často zapotřebí znát kontext. (CRF). Na tento problém upozornili také jiní autoři, např. [6]. • Ostatní symbolické techniky zahrnují např. neuronové sítě nebo support vector machines (SVM).
4
Cílové struktury a nomenklatury
V tomto článku jsme se zaměřili na extrakci pojmenovaných entit pomocí manuálních technik. Použitelnost 4.1 Nomenklatury těchto metod v malém měřítku je předpokladem pro použití automatických technik a pro extrakční úlohy ve větším Cílové nomenklatory je nutné volit tak, aby jim rozuměřítku. měli cíloví uživatelé a jejich nástroje (informační systémy). V mezinárodním i národním měřítku se běžně používá například Mezinárodní klasifikace nemocí (MKN, ICD) 3 České lékařské zprávy a běžně se užívá i v lékařských zprávách. Laboratorní výČeské lékařské zprávy jsou obvykle ve formě volných sledky zase obvykle používají mezinárodní soustavu jedtextů formátovaných jen pomocí mezer, tabulátorů a od- notek SI. řádkování. Jiné hodnoty se v České republice a v zhraničí v kódoPovinnost vytvářet, uchovávat a podle daných pravi- vání značně liší. V České republice klinické systémy často del strukturovat lékařské zprávy byla do české legislativy užívají Národní číselník laboratorních položek (NČLP), zanesena v roce 2001 [3] a [4]. Zákon o péči o zdraví lidu který není jediným číselníkem, ale systémem sdružujía prováděcí vyhláška o zdravotnické dokumentaci uvedly cím desítky číselníků, z nichž některé jsou odvozené nebo c
2012 EuroMISE s.r.o.
EJBI – Ročník 8 (2012), číslo 5
cs44
Zvára, Svátek – Extrahovatelnost informací z českých lékařských zpráv
Tabulka 1: Slova nalezená v lékařských zprávách (celkové průměry).
Podstatné jméno Přídavné jméno Zájmeno Číslovka Sloveso Příslovce Předložka Spojka Částice Citoslovce
Počet anotací (průměr/zpráva) 75 23 0 0 17 3 0 0 0 0
přímo přebrané z jiných zdrojů (obsahuje například českou verzi Mezinárodní klasifikace nemocí verze 10). V mezinárodním měřítku existují různé více či méně komplexní nomenklatury, především SNOMED CT (Systematized Nomenclature of Medicine Clinical Terms), LOINC (Logical Observation Items Names and Codes) a slovník (vocabulary) Health Level Seven. Tyto mezinárodně užívané nomenklatury jsou vždy spravovány nějakou konkrétní organizací a jsou indexovány Národní lékařskou knihovnou v USA a jejím systémem UMLS (Unified Medical Language System). UMLS indexuje více než 100 různých číselníků a mapuje jejich položky na vlastní koncepty, přičemž spravuje vlastní síť mapování mezi jednotlivými koncepty. Tímto způsobem je možné alespoň přibližně mapovat hodnoty mezi různými nomenklaturami. Kromě UMLS jsou i další snahy o formalizování nomenklatury pomocí ontologií. Existují také iniciativy, které se snaží spojovat různé tematické ontologie do ucelených ontologií (např. OBO Foundry usiluje o vytvoření ontologie pro biomedicínu a biochemii).
4.2
Struktury
Lékařské zprávy jsou neformalizované stavové dokumenty popisující pacientův současný stav, historii, pozorování, rozhodnutí a provedené úkony. Několik významných organizací, zejména TC 251 CENu, Health Leven 7, ASTM (American Society for Testing and Materials) a openEHR, se zabývají standardizací struktur pro uchování formalizovaných stavových dokumentů – elektronických zdravotních záznamů. Health Level Seven vyvíjí CDA (Clinical Document Architecture). CDA v současné verzi R2 umožňuje formalizovat především administrativní informace, anotovat části zpráv na úrovni bloků a umožňuje zapsat ve formalizované podobě jednotlivá klinická pozorování. Standardy Health Level Seven jsou obvykle vyvíjeny přístupem shora-dolů (od obecnému ke konkrétnímu), vývoj je pomalý, avšak výsledky jsou obvykle robustní. ASTM vyvinula Continuity of Care Record (CCR). CCR umožňuje zachytit jen aktuální stav pacienta, jde tedy o stavový dokument. Vývovj CCR probíhá na zá1 European
Anotací / slov celkem 30,32 % 9,3 % 0% 0% 6,87 % 1,21 % 0% 0% 0% 0%
kladě požadavků od uživatelů, k praktické použitelnosti tedy dospívá rychleji než CDA. ASTM a Health Level Seven společně vyvinuli technickou implementaci CCR pomocí CDA. Výsledkem je CCD (Continuity of Care Document), CDA dokument obsahující CCR. Z evropského pohledu je nejdůležitějším standardem pro elektronický zdravotní záznam standard EN 13606, který se stal také ISO standardem. Obvykle je označován jako „EHRcom“. EHRcom specifikuje obecný způsob formalizace informací, které jsou obvykle obsažené v lékařských zprávách. Používá SNOMED CT, LOINC a další mezinárodně užívané klasifikační systémy. V EU jsou take další projekty, které se snaží standardizovat (základní) obsah elektronického zdravotního záznamu. Projekt epSOS1 se zabývá minimální elektronickou zdravotní dokumentací potřebnou pro urgentní péči. epSOS publikoval specifikaci pacientského shrnutí (Patient Summary, PS), které také namapoval na EHRcom.
5
Automatická analýza českých lékařských zpráv
První studie o možnosti automatické extrakce informací z českých lékařských zpráv byly publikovány v [7] a [8]. V práci [8] šlo o regulární analýzu lékařských zpráv. Práce [7] uvádí, že lexikální analýzu nelze pro extrakci zpráv z českých lékařských zpráv použít, protože české lékařské zprávy nesestávají z celých vět a téměř není používána interpunkce. Práce [8] navazuje na výsledky práce [7] a rozšiřuje regulární analýzu s částečnou lingvistickou analýzou. V těchto pracích nebyly využité žádné číselníky. Práce [8] přinesla mírně lepší výsledky než práce [7]. Již dříve jsme studovali možnost použití lexikální analýzy, rozpoznávání specifických vzorů (např. česká rodná čísla a systolický/diastolický krevní tlak) a užití dostupných číselníků. Částečné výsledky byly publikovány v [9].
Patients Smart Open Services
EJBI – Ročník 8 (2012), číslo 5
c
2012 EuroMISE s.r.o.
cs45
Zvára, Svátek – Extrahovatelnost informací z českých lékařských zpráv
Tabulka 2: Výsledky rozpoznávání kombinací čísel.
Krevní tlak (sys/dia) Rodné číslo Neidentifikováno
5.1
Nalezeno 434 77 268
Min. nalezeno 0 0 0
Lexikální analýza
Pro analýzu distribuce různých slov v záznamech jsme použili český slovník pro iSpell vytvořený Petrem Kolářem. Původní verze může být snadno použita pro automatické anotování částí textu s jen malými úpravami. Doplnění slovníku o další vlastnosti umožní detailnější anotaci, konkrétně uvedení rodu, pádu, osoby či stupně. Toto rozšíření jsme však neprovedli, neboť výsledky automatického anotování nebyly uspokojivé. Český slovník pro iSpell obsahuje 260 679 základních slov, ze kterých lze pravidly vytvořit celkem 4 624 350 slov (některá ve stejném znění, ovšem s jinými vlastnostmi) pomocí pravidel pro rozšiřování o předpony a přípony (affix rules). Vysoký počet anotací je důsledek vícenásobné anotace rozpoznaných slov. Zpracování 268 lékařských zpráv s celkem 66 286 tokeny (slovy) nám přineslo následující výsledky (viz. Tab. 1).
5.3
Průměr 1,62 0,29 1
Použití dostupných číselníků
Výsledky rozpoznávání číselníkových termínů byly publikovány v [9]. Rozpoznávání pomocí SNOMED CT a ICT10 bylo zcela neúspěšné. V případě SNOMED CT jsme neúspěch očekávali, neboť byla použita anglická verze (česká není k dispozici). ICD10 byla použita v české verzi (převzata z NČLP), neúspěch byl však zapříčiněn tím, že diagnózy byly v některých případech již uvedeny pomocí kódu ICD10 (potom nebylo zapotřebí je rozpoznávány) a částečně tím, že použitá česká verze ICD10 obsahuje velké množství zkratek. Větší úspěch jsme zaznamenali při použití české verze MeSH2 . V tomto případě jsme však dokázali rozpoznat v průměru méně než dva termíny ve zprávě, zřejmě pro nevhodnost číselníku pro klinické použití (MeSH je bibliografický klasifikační systém).
6 5.2
Max. nalezeno 12 1 6
Závěry
Rozpoznávání specifických vzorů
Relativně jednoduchým (ovšem nikoliv triviálním) úkolem extrakce informací je rozpoznávání sekvencí čísel se speciálním významem. Soustředili jsme se na dva běžné typy informace, hodnotu krevního tlaku a rodné číslo. Konkrétní kombinace číselných hodnot byly rozpoznány symbolickou metodou založenou na pravidlech (tedy metodou regulárních výrazů). Významy byly rozlišeny pevně nastavenými pravidly. V případě krevního tlaku jsme do pravidel přidali smyslupnost hodnot. V případě rodného čísla jsme použili kontrolu délky částí a významů (datum narození, pohlaví, kontrolní součet). Tabulka 2 uvádí výsledky rozpoznávání kombinací čísel. Nezjistili jsme žádné nesprávné rozpoznání, zřejmě pro tvrdost rozpoznávacích pravidel. Obě rozpoznávací funkce byly definovány pro sadu dvou čísel oddělených lomítkem, navíc s těmito pravidly:
V této části stručně shrnujeme hlavní závěry ve vztahu k použitým typům textové analýzy. Lexikální analýza není řešením pro extrakci informací z českých lékařských textů. Hlavním důvodem je skutečnost, že české lékařské zprávy nejsou běžnými větami. To je zřejmé z rozdělení anotace slovních druhů. Hlavním ponaučením je, že je třeba věnovat pozornost překlepům a zkratkám. Oba úkoly by měly být řešeny společně s extrakcí informací, protože zkratky a chyby podmiňují správné rozpoznání pojmenovaných entit. Symbolické techniky jako na pravidlech založené filtry nebo rozpoznávací agentní systémy jsou dobrým nástrojem pro rozpoznání konkrétních numerických hodnot. Takové techniky mohou být efektivně použité pro rozpoznání hodnot krevního tlaku nebo identifikátorů pacientů.
Vyhledávání pojmenovaných entit se zdá neefektivním, neboť i ty nejkomplexnější číselníky (především SNOMED CT) nejsou k dispozici v českém jazyce. Proto musejí být nalezené či vytvořené nové slovníky či přeložené existující • krevní tlak: první číslo je větší než druhé, obě čísla klasifikační systémy. jsou kladná a první číslo je menší než 500; • rodné číslo: použili jsme běžná pravidla validace Poděkování českých rodných čísel (existující datum, kódování pohlaví a pro rodná čísla identifikující osobu s naTato práce byla podpořena z projektu specifického rozením po 1. 1. 1954 byl kontrolován také kontrolní výzkumu č. 264513 „Sémantická interoperabilita v biomesoučet). dicíně a zdravotnictví“, Univerzita Karlova v Praze.
2 Medical
Subject Headings
c
2012 EuroMISE s.r.o.
EJBI – Ročník 8 (2012), číslo 5
cs46
Zvára, Svátek – Extrahovatelnost informací z českých lékařských zpráv
Literatura [1] Garcia-Remesal M., Maojo V., Billhardt H., Crespo J., Integration of Relational and Textual Biomedical Sources, Methods Inf Med, 2010 [2] Labský M., PhD thesis: Information Extraction from Websites Using Extraction Ontologies, Vysoká škola ekonomická v Praze, Praha, 2009 [3] Žďárek R., Vedení zdravotnické dokumentace a její náležitosti, Zdravotnické noviny, 3.6.2009 [4] Dostál O., Šárek M., Support for Electronic Health Records in Czech Law, European Journal for Biomedical Informatics, 2012 [5] Hammond K., Helbig S., Benson C., Brathwaite-Sketoe B., Are Electronic Medical Records Trustworthy? Observations on
EJBI – Ročník 8 (2012), číslo 5
Copying, Pasting and Duplication. AMIA Annual Symposium Proceedings, 2003; 269-273 [6] Tsung O. Cheng, Letters to Editor; in: Medical abbreviations in Journal of the Royal Society of Medicine, Volume 97, 2004 [7] Semecký J., Zvárová J.(školitelka), Multimediální elektronický záznam o nemocném v kardiologii, Matematicko-fyzikální fakulta UK, Praha, 2001 [8] Smatana P., Paralič J. (školitel), Spracovanie lekárskych správ pre účely analýzy a dolovania v textoch, Technická univerzita v Košiciach, Košice, 2005 [9] Zvára K., Kašpar V., Identifikace jednotek a dalších termínů v českých lékařských zprávách, European Journal for Biomedical Informatics, 2010
c
2012 EuroMISE s.r.o.