Inhoud-gebaseerd zoeken in multimodale medische data
Aanvraag IWT-specialisatiebeurs: Gedetailleerde beschrijving van het onderzoeksproject
Vrije Universiteit Brussel Faculteit Ingenieurswetenschappen Departement Elektronica en Informatieverwerking
Door: Frederik Temmermans Promotor: Prof. Dr. Ir. Peter Schelkens September 2006
Inhoudsopgave Inhoudsopgave
1
1 Probleemstelling
2
2 Doelstelling
3
3 Projectbeschrijving 3.1 Inleiding . . . . . . . . . . . . . . . . . . . . . . . . 3.2 State of the art . . . . . . . . . . . . . . . . . . . . 3.2.1 CBIR in Medische Applicaties . . . . . . . . 3.2.2 Multimodale Information Retrieval . . . . . 3.3 Innovatie . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Verwachtingen . . . . . . . . . . . . . . . . . . . . . 3.5 Concrete uitwerking . . . . . . . . . . . . . . . . . . 3.6 Technieken . . . . . . . . . . . . . . . . . . . . . . . 3.6.1 Feature-vectoren en NN-algoritme . . . . . . 3.6.2 Geoptimaliseerd zoeken naar dichtste buren 3.6.3 Gewichtsvectoren en Relevance Feedback . . 3.7 Evaluatie . . . . . . . . . . . . . . . . . . . . . . . 3.8 Uitbreidingen . . . . . . . . . . . . . . . . . . . . . 3.8.1 Afleiden van correlaties tussen features . . . 3.8.2 Computer Aided Diagnosis (CAD) . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
4 4 5 5 5 5 6 7 8 8 9 10 10 11 11 12
4 Planning
13
5 Toepassingsmogelijkheden
14
Referenties
15
1
1
Probleemstelling
Ook bij medische beeldvorming nemen digitale beelden meer en meer de bovenhand op klassieke analoge beelden. Hierdoor neemt de hoeveelheid beschikbaar beeldmateriaal in databases van ziekenhuizen aanzienlijk toe [4]. Dit resulteert in een gigantische bron aan informatie die artsen kunnen raadplegen, bijvoorbeeld als hulpmiddel bij het stellen van een diagnose. Deze informatie is echter alleen bruikbaar als ze op een effici¨ente manier toegankelijk is, maar de grote toename maakt dat het beheer en de toegang steeds complexer worden. Huidige ”Picture Archive and Communication Systems” (PACS) geven clinici de mogelijkheid de beelden op een effici¨ente manier te bewaren, te verzenden en te doorzoeken op een aantal vooraf gedefinieerde tekstuele zoekvelden [17, 18]. Deze klassieke zoekopdrachten hebben echter hun beperkingen omdat de in de afbeeldingen opgeslagen informatie (DICOM-headers [5]) vrij beperkt is (bijvoorbeeld het radiologisch rapport is elders opgeslagen). Bovendien zijn bepaalde zoekopdrachten, zoals het zoeken naar gelijkaardige beelden, niet uit te drukken als een tekstquery. Verschillende ”Content Based Image Retrieval” (CBIR) technieken zijn reeds voorgesteld om beelden op basis van specifieke eigenschappen in een database terug te vinden [11, 13, 27, 37]. De gelijkenis tussen verschillende gevallen kan echter niet altijd enkel bepaald worden door het matchen van unimodale beelden. Een arts zal voor het stellen van een diagnose dikwijls meerdere beelden bestuderen en ook andere aspecten in acht nemen, zoals de leeftijd van de pati¨ent of resultaten van een bloedonderzoek [16, 39]. Daarom is er nood aan een inhoudgebaseerd zoeksysteem dat relevantere resultaten kan teruggeven door net als een arts met meerdere aspecten dan ´e´en enkel beeld rekening te houden tijdens het zoekproces. Dankzij volledig elektronische pati¨entendossiers [6, 12], die meer en meer hun intrede doen, wordt de informatie van alle verschillende modaliteiten beschikbaar in ´e´en enkel systeem. Dit biedt een uitstekende gelegenheid om een dergelijk zoeksysteem op termijn hierin te integreren. Een framework dat multimodaal zoeken ondersteunt zou het mogelijk maken nieuwe technieken, die artsen gebruiken bij het stellen van een diagnose, in het zoekproces te integreren en zo de relevantie van de verkregen resultaten te verhogen. Deze technieken omvatten onder andere het gebruik van 3D en/of temporele data verkregen via diverse beeldvormingstechnieken (MRI, CT, ...) en data afkomstig van klinische onderzoeken. Al deze informatie kan niet gebruikt worden in een unimodaal zoeksysteem. Het voorstel van dit onderzoek is dan ook een framework, dat inhoud-gebaseerd zoeken in multimodale data ondersteunt, te ontwerpen. Een dergelijk systeem, dat relevante gelijkaardige gevallen kan teruggeven, kan zowel voor artsen als voor geautomatiseerde detectiedoeleinden een groot hulpmiddel zijn bij het bepalen van de gezondheidstoestand van de pati¨ent, het detecteren van bepaalde aandoeningen, het stellen van een diagnose of het bepalen van een specifieke behandeling. Ook in andere domeinen zijn vele toepassingen van inhoud-gebaseerde multimodale zoeksystemen denkbaar.
2
2
Doelstelling
Het doel van het voorgestelde onderzoek is om technieken voor inhoud-gebaseerd zoeken in multimodale data te bestuderen, te implementeren en te evalueren. De nadruk zal liggen op de toepassing voor medische data maar de implementatie zal op een abstracte manier gebeuren zodat de zoektechnieken ook kunnen toegepast worden in andere domeinen. Multimodale data in het medische domein kan bestaan uit beelden afkomstig van verschillende beeldvormingstechnieken, 3D-beelden, temporele data en combinaties met allerhande andere medische informatie, zoals resultaten van klinische onderzoeken. Concreet zal een abstract framework uitgewerkt worden dat zoeken in multimodale data ondersteunt. De werking zal gedemonstreerd worden aan de hand van twee medische toepassingen, namelijk het zoeken in (1) dynamische 3D CT studies van de longen in combinatie met allerhande andere medische pati¨ent-informatie en (2) temporele beelddata bestaande uit mammografie¨en van vorige en recente screeningsstudies, ook hier in combinatie met extra medische informatie over de pati¨enten. Bij het ontwerp van het multimodaal zoeksysteem zal er eveneens gekeken worden naar lopende activiteiten binnen de huidige standaardcomit´es zoals JPEG (JPSearch [40]) en MPEG (MPEG-7 [23]). Er zal ook rekening gehouden worden met de randvoorwaarden om het zoekframework op termijn te integreren in ziekenhuissystemen voor beheer en uitwisseling van elektronische pati¨entendossiers, zoals het systeem gebruikt in het AZ-VUB [6]. Het uitwerken van het framework vereist het bestuderen van een aantal fundamentele onderzoeksvragen, waaronder het afleiden van relevante features, het defini¨eren van een afstandsmaat tussen cases, het werken met onvolledige data, het integreren van relevance feedback en het bepalen van de correlatie tussen data van verschillende modaliteiten. Multimodale zoekopdrachten in een database waar niet alle modaliteiten beschikbaar zijn voor alle entries, is een aspect in information retrieval dat nog open ligt voor onderzoek, hetgeen ook geldt voor het exploiteren van relevance feedback in combinatie met een dynamische dataset. Voor het bepalen van de correlatie tussen items van verschillende modaliteiten zijn oplossingen voor data interpretatie en fusie noodzakelijk. Naast het uitwerken van het framework voor inhoud-gebaseerd zoeken in multimodale data zullen mogelijke uitbreidingen zoals automatische detectie- en assistentietechnieken (CAD) (Sectie 3.8.2) en het afleiden van correlaties tussen features (Sectie 3.8.1) bestudeerd worden. Ten slotte zal extra aandacht besteed worden aan de evaluatie van de resultaten verkregen met het systeem, en de effectiviteit van het systeem als hulpmiddel voor artsen in de praktijk. Het onderzoek zal uitgevoerd worden bij de onderzoeksgroep IRIS (Image processing & Machine Vision) van het departement ETRO (Elektronica en Informatieverwerking) van de Vrije Universiteit Brussel. IRIS is actief in zeven verschillende domeinen, waaronder medische beeldverwerking. De onderzoeksgroep streeft na nauw samen te werken met de industrie, overheidsinstellingen en ziekenhuizen. In het domein van medische beeldverwerking wordt samengewerkt met het departement radiologie van het AZ-VUB, in het bijzonder voor mammografie met de radiologe Cath´erine Breucq en voor longstudies met het hoofd van de dienst radiologie, Prof. Johan Demey. Dankzij deze samenwerking is de toelevering van de nodige data en medische contextualisatie verzekerd.
3
3 3.1
Projectbeschrijving Inleiding
Door de snelle evolutie in het verkrijgen en bewaren van digitaal medisch beeldmateriaal neemt de hoeveelheid beschikbaar beeldmateriaal in databases van ziekenhuizen dagelijks toe [4]. Hierdoor ontstaat er een enorme hoeveelheid informatie. Deze informatie is echter alleen bruikbaar als ze op een effici¨ente manier toegankelijk is, maar de grote toename maakt dat het beheer en de toegang steeds complexer worden. Wanneer het DICOM-protocol [5] wordt gebruikt zijn de meeste zoeksystemen enkel gebaseerd op tekstuele informatie verwerkt in de DICOM-headers. Deze informatie is vrij beperkt en bijgevolg is de inhoud van deze databases niet optimaal te benutten voor specifieke toepassingen. ”Content Based Image Retrieval” (CBIR) was tijdens de laatste 10 jaar ´e´en van de meest actieve onderzoeksdomeinen op gebied van computer vision, beeldverwerking en data mining [27]. Door gebruik te maken van inhoud-gebaseerde zoeksystemen in medische applicaties zou de in de database aanwezige informatie beschikbaar moeten zijn zonder daarvoor afhankelijk te zijn van meta-data. Dergelijke systemen moeten artsen in staat stellen beelden met gelijkaardige eigenschappen aan een gegeven beeld terug te vinden. De gevonden resultaten kunnen dan gebruikt worden ter vergelijking of als hulpmiddel bij het stellen van een diagnose. Een voorbeeld van een CBIR-systeem voor CT-scans van longen is Assert [32]. Voor mammografie¨en werd door Alto et al. een CBIR-systeem voorgesteld in [3] (zie Sectie 3.2.1). Een ervaren arts zal bij het stellen van een diagnose nooit enkel en alleen gebruik maken van de informatie die hij kan afleiden uit ´e´en enkel beeld. Hij zal de informatie combineren met andere beschikbare medische informatie, zoals de anamnese van de pati¨ent en resultaten van labo-onderzoeken. Voor complexe gevallen zal hij gebruik maken van verschillende beelden, bijvoorbeeld scans afkomstig van verschillende modaliteiten, of scans genomen op verschillende momenten. Het combineren van al deze informatie leidt dan tot de uiteindelijke conclusie van de arts [26, 30]. Voor het bepalen of een waargenomen gezwel op een mammografie goed- of kwaadaardig is, is het bijvoorbeeld bewezen dat de evolutie [41], de leeftijd en het medisch verleden van de pati¨ent een significante rol spelen [16, 39]. Ingwersen voorspelde in [21] dat het combineren van informatie van verschillende modaliteiten, zoals tekst en afbeeldingen, effectiever zou zijn voor IR (Information Retrieval ) dan IRsystemen op basis van ´e´en modaliteit [10]. Voor het effici¨ent zoeken naar gelijkaardige gevallen in medische data kan men aannemen dat het gebruiken van informatie van verschillende modaliteiten zal leiden tot relevantere zoekresultaten. Het voorstel van dit onderzoek is dan ook een algemeen framework te ontwerpen dat inhoud-gebaseerd zoeken in multimodale data ondersteunt. Het ontwikkelen van het framework vereist het oplossen van een aantal fundamentele onderzoeksvragen, waaronder het defini¨eren van een afstandsmaat tussen cases, het werken met onvolledige data, het integreren van relevance feedback in combinatie met een dynamische dataset en het bepalen van de correlatie tussen data van verschillende modaliteiten.
4
3.2 3.2.1
State of the art CBIR in Medische Applicaties
Een overzicht van vroeg werk rond inhoud gebaseerde zoeksystemen in het medische domein wordt gegeven in [35]. Een gedetailleerdere en recentere review is te vinden in [27]. De algemene conclusie van dit overzicht is dat vele systemen ontwikkeld werden, maar dat meestal geen implementatiedetails en/of performantie-evaluatie worden gepresenteerd. Specifiek voor longaandoeningen en -patologie blijkt ASSERT [32] de enige uitzondering te zijn. ASSERT is een systeem voor de classificatie van hoge-resolutie 2D CT-scans van longen. Voor dit systeem werd aangetoond dat een significante verbetering van de diagnosekwaliteit kon worden bereikt door gebruik te maken van het CBIR-systeem. Bij het ASSERT-systeem duidt een radioloog de regio van het letsel aan door middel van enkele muisklikken. Na segmentatie worden 52 eigenschappen berekend voor elk letsel. Deze eigenschappen omvatten beschrijvingen voor grijswaarden, vorm en textuur. Het matchen gebeurt door gebruik te maken van de euclidische afstand op de 52-dimensionale featurevectoren. Om performantieredenen is de feature ruimte opgedeeld in bins en wordt gebruik gemaakt van de multi-hash methode voor indexatie. Een CBIR-systeem voor ROI’s (Region Of Interst) uit mammografie¨en wordt voorgesteld in [3]. Er wordt gebruik gemaakt van 3 beschrijvingen voor vorm, 14 voor textuur en 4 voor randscherpte. Experimenten werden gedaan voor 57 regio’s uit mammografie¨en met een tumormassa, waarvan 20 kwaadaardig en 37 goedaardig. Wanneer een nieuwe ROI als query aan het zoekalgoritme wordt gegeven, wordt de euclidische afstand tussen de featurevectoren van het query-voorbeeld en elk van de 57 ROI’s in de database berekend. De 57 voorbeelden worden dan geordend volgens toenemende euclidische afstand aan de gebruiker gepresenteerd. 3.2.2
Multimodale Information Retrieval
Het meeste werk rond multimodale IR behandelt het gebruik van zowel tekst als afbeeldingen in IR-systemen. Nawei Chen geeft in [10] een recent overzicht van bestaande systemen en gebruikte technieken. Ook hier is de conclusie dat, ondanks het feit dat er veel onderzoek gebeurt in dit domein, er nog steeds veel moet gedaan worden om de verwachte effectiviteit te bewijzen. Ongeacht het feit dat het in de context van het voorgestelde onderzoek niet de bedoeling is om multimodale data te zien als combinatie van tekst en afbeeldingen, kan uit dit onderzoeksdomein heel wat inspiratie worden opgedaan.
3.3
Innovatie
Op enkele uitzonderingen [14] na werken huidige CBIR-systemen meestal enkel op 2D beelden en unimodale data. In het voorgestelde onderzoek zal een systeem ontwikkeld worden dat zoekt in multimodale data. Multimodale data is een breed begrip en kan in deze context staan voor meerdere beelden gemaakt met verschillende technieken (CT, MRI, ...), meerdere beelden gemaakt op verschillende momenten (bijv. 2-jaarlijkse mammografie¨en of meerdere CT-scans 5
met interval), 3D-data (3D CT-scans of tomosynthese), combinaties van beeldmateriaal met andere klinische informatie (bijv. resultaten van bloed- of urineonderzoek), enz. Specifiek zal het systeem uitgewerkt en getest worden voor 3D CT-scans van longen en 2D mammografie¨en, beide in combinatie met pati¨enteninformatie en resultaten van klinische onderzoeken. Een zoekopdracht zal bestaan uit een verzameling data van verschillende modaliteiten (pati¨entendossier), in tegenstelling tot bij klassieke CBIR-applicaties, waar een query bestaat uit een enkel 2D beeld. De verschillende pati¨entendossiers zullen echter niet altijd data van alle modaliteiten bevatten. Zo kunnen bijvoorbeeld de resultaten van een bloedonderzoek niet in alle dossiers beschikbaar zijn. Zoals eerder aangehaald in de doelstelling zit de innovativiteit van het onderhavig onderzoeksvoorstel op verschillende gebieden: multimodale zoekopdrachten in een database waar niet alle modaliteiten beschikbaar zijn voor alle cases, de datafusie van items van verschillende modaliteiten en het optimaliseren van het zoekproces gebruikmakende van relevance feedback in combinatie met een dynamische dataset. Met andere woorden er zullen steeds volledig nieuwe cases in de database kunnen toegevoegd worden en er zal steeds extra informatie aan bestaande cases kunnen toegevoegd worden. Dit maakt dat er een mechanisme nodig is om nieuwe en aangepaste dossiers op een adequate manier te behandelen. Bestaande CBIR-applicaties zijn beperkt tot het zoeken in 2D beelden. Tegenwoordig neemt het belang van 3D-beelden voor specifieke diagnoses toe. Technieken voor segmentatie, detectie en textuuranalyse worden uitgebreid van tweedimensionale beelden naar 3D (bijvoorbeeld de MPEG-7 3D descriptors [25]). Er zal onderzocht worden of en hoe het gebruik van deze 3D informatie in het inhoud-gebaseerde zoeksysteem kan leiden tot accuratere zoekresultaten.
3.4
Verwachtingen
In het algemeen zijn er tot op heden nog steeds geen voldoende effici¨ente methoden voor inhoud-gebaseerd zoeken in medische data. Gezien het feit dat artsen voor het stellen van diagnoses allerhande informatie combineren, wordt verwacht dat door deze informatie te gebruiken in het zoekproces het mogelijk zal zijn relevantere data te verkrijgen. Voor borstkankerdiagnose is het bekend dat het in acht nemen van meerdere mammografie¨en significant kan zijn bij het bepalen van de aard van een gezwel [41]. In het kader van nationale screeningsprogramma’s worden vrouwen boven de 50 aangeraden om de 2 jaar preventief mammografie¨en te laten nemen. Door de informatie uit deze verschillende opeenvolgende beelden te gebruiken kan het zoekproces naar gelijkaardige gevallen verfijnd worden. Bijgevolg kan dit een hulp zijn voor de arts bij het stellen van zijn diagnose, of gebruikt worden als techniek voor automatische detectie. Het belang van dit laatste aspect wordt steeds belangrijker, gezien de grote toename aan te analyseren beelden. Voor hersentumor-detectie combineren artsen dikwijls informatie van CT en MRI scans voor het stellen van hun diagnose [34]. Een veelbelovende techniek voor longtumor-detectie, die op dit moment wordt onderzocht, maakt gebruik van een contrastvloeistof die in de pati¨ent wordt ingespoten en waarvan de toename in meerdere na elkaar genomen CT scans wordt nagegaan [1]. Voor beide technieken is een multimodaal zoeksysteem de enige oplossing om
6
de beschikbare informatie te integreren in het zoekproces naar relevante voorbeelden. De integratie van CBIR-applicaties in PACS-systemen of andere medische databases is dikwijls aangehaald in de literatuur [8, 9, 19, 22, 29] maar implementatiedetails zijn eerder zeldzaam [27]. Ondertussen is er een overgang gekomen van ”dienstgecentreerde” systemen (zoals PACS voor radiologie) naar ”ziekenhuiswijde” systemen. Deze systemen combineren alle beschikbare medische informatie over de pati¨ent in ´e´en systeem dat toegankelijk is bij alle diensten. In het Academisch Ziekenhuis van de Vrije Universiteit Brussel (AZ-VUB) maakt men reeds gebruik van een dergelijk systeem voor elektronische medische dossiers (EMD) (Figuur 1) [6]. Het voorgestelde zoeksysteem past perfect binnen deze evolutie en er zal rekening gehouden worden met de randvoorwaarden om het zoeksysteem op termijn te integreren in een dergelijk database-systeem in ziekenhuizen.
Figuur 1: Elektronisch Medisch Dossier van het AZ-VUB
3.5
Concrete uitwerking
Een algemeen framework zal gebouwd worden dat inhoud-gebaseerd zoeken ondersteunt in multimodale data. Het abstracte framework zal uitgewerkt worden rond twee specifieke cases: (1) het zoeken naar gelijkaardige primary lung lesions en (2) het zoeken naar microcalcificaties in de borst. Voor beide toepassingen zal data van het AZ-VUB worden gebruikt. Voor de eerste toepassing bevat de data onder andere volumetrische CT-scan studies van longtumors, gecombineerd met klinische informatie, labo-resultaten, spirometrie en bronchoscopie metingen. Klinische informatie bestaat uit subjectieve criteria (frequentie en graad van pijn en ademhalingsproblemen), objectieve criteria (koorts, hoesten - met bloed?, auscultatie, ECG signalen, ...) en informatie over het medisch verleden van de pati¨ent. Labo-resultaten omvatten resultaten van bloedonderzoek, urine-analyse, ademhalingstests en biopsie-onderzoek. Voor de tweede toepassing zullen mammografie¨en en bijhorende pati¨enteninformatie beschikbaar gesteld worden. In het domein van medische studies van longtumors zijn feature extractie algoritmes erg complex. Kenmerk-detectie-methoden omvatten onder andere vormanalyse en segmentatie van het letsel. Door de overgang van 2D naar 3D beelden en de evolutie in 3D segmentatie 7
[25] zal in de toekomst nog preciezere informatie kunnen worden afgeleid. Informatie af te leiden uit 3D beelden omvat bijvoorbeeld een nauwkeurige beschrijving van de anatomische positie van het letsel op zowel intrapulmonair (aders, luchtwegen, ...) als extrapulmonair (hart, thorax-wand, ...) niveau. In het geval dat een tumor gedetecteerd is en alles wijst er op dat het een primaire tumor is en geen metastase, moet een classificatie volgens de Tnm standaard (T1- T4) [7] kunnen bepaald worden. Bij klassieke CBIR-systemen is het niet mogelijk om te werken met temporele data. Voor beide voorgestelde toepassingen kan temporele data van belang zijn voor het bepalen of een waargenomen gezwel goed- of kwaadaardig is. Voor longtumor-detectie kan dit door de doorstroming van een in de pati¨ent ingespoten contrastvloeistof te bestuderen op verschillende na elkaar genomen scans. Voor mammografie¨en kunnen beelden genomen met tussenintervals van twee jaar in acht genomen worden [2]. Het voorgestelde systeem zal het werken met temporele data ondersteunen, dit zal gedemonstreerd worden voor beide vermelde gevallen.
3.6
Technieken
Deze sectie beschrijft een aantal technieken die kunnen gebruikt worden om het project te realiseren. 3.6.1
Feature-vectoren en NN-algoritme
Eigenschappen van afbeeldingen kunnen beschreven worden door middel van feature-vectoren: x = [x1 , x2 , ..., xn ]T Voor ROI (Regions Of Interest) van gezwellen uit mammografie¨en zullen features bijvoorbeeld eigenschappen als vorm, randscherpte en textuur beschrijven. Om de gelijkenis tussen twee beelden te bepalen kan dan de euclidische afstand tussen de feature-vectoren worden berekend: d(x, y) =
p (x − y)T (x − y)
De meeste CBIR-systemen werken met een query-by-example methode. De gebruiker geeft een voorbeeldafbeelding aan het programma dat vervolgens een aantal gelijkaardige afbeeldingen terug geeft. Het meest gebruikte algoritme om gelijkaardige afbeeldingen te vinden is het nearest neighbors (NN) algoritme. Hierbij worden de n afbeeldingen teruggeven die in de euclidische ruimte (bepaald door de gebruikte features) het dichtst bij het query-voorbeeld liggen. Voor multimodale data zou kunnen gewerkt worden met ´e´en grote hoogdimensionale featurevector die features voor alle eigenschappen van de verschillende modaliteiten bevat. Er bestaan afstandsfuncties voor cases met zowel continue als discrete (heterogene) eigenschappen [38]. Een ander probleem dat zich stelt is het feit dat niet voor alle gevallen alle informatie beschikbaar zal zijn. Er zijn reeds oplossingen voorgesteld voor het bepalen van de afstand 8
tussen cases met ontbrekende attributen [24]. Hierbij worden de ontbrekende features niet in acht genomen bij het bepalen van de afstand. De bedoeling is echter om ook de relatie tussen features van verschillende modaliteiten in de afstandsmaat te verwerken. Een nadeel van het werken met hoogdimensionale feature-vectoren is dat bijna nooit alle features relevant zullen zijn. Bij het bepalen van de afstand vormen irrelevante features enkel ruis [28, 31]. Er bestaan verschillende statistische technieken om de relevante features af te leiden uit trainingsdata, bijvoorbeeld Correlation Analysis en Information Gain. Het beoogde doel bij feature selectie is het laagste aantal features te vinden resulterend in de hoogst mogelijke nauwkeurigheid. Aangezien beide doelen meestal tegenstrijdig zijn is het doel in de praktijk het vinden van een voldoende laag aantal features resulterend in een bevredigende nauwkeurigheid. Een alternatief op het werken met ´e´en vector met alle eigenschappen van de verschillende modaliteiten is het werken met ´e´en feature-vector per modaliteit. Er kan dan per modaliteit afzonderlijk gezocht worden naar resultaten. De verkregen resultaten kunnen dan achteraf samengebracht worden om te bepalen welke gevallen algemeen het best matchen. Figuur 2 toont een illustratie van multimodale data en de twee verschillende manieren voor het opbouwen van de feature-vectoren. Voor dit onderzoek zullen beide methodes worden onderzocht, uitgewerkt en ge¨evalueerd. ROI
vorm
x=[
x1
textuur
,
x2
patiënt informatie
Bloedonderzoek
...
...
bloedgroep
CA-125
,
x = [ x1 , x2 , ... , xm ]
...
...
geslacht
... y = [ y1 , y2 , ... , ym ]
leeftijd
...
...
,
xn
]
z = [ z1 , z2 , ... , zm ]
Figuur 2: Illustratie van multimodale data. Er kan gewerkt worden met ´e´en feature-vector met alle eigenschappen van alle modaliteiten of met ´e´en feature-vector per modaliteit.
3.6.2
Geoptimaliseerd zoeken naar dichtste buren
De N dichtste buren vinden van een gegeven punt p in een hoog dimensionale en grote dataset is op de meest na¨ıeve manier een computationeel extreem zware taak. Daarom zijn reeds verschillende optimalisaties voor dit probleem voorgesteld. De meeste zijn gebaseerd op het voorverwerken van de data in een specifieke datastructuur die effici¨ent zoeken mogelijk maakt (bijv. Kd-trees) [15]. De kost voor het voorverwerken is computationeel zwaar, maar deze stap moet slechts ´e´en keer gebeuren. Gezien het zoeken zelf nu veel sneller gaat en bovendien veel meer gebeurt, is het totale effect winst in tijdscomplexiteit. Deze methode is echter niet mogelijk wanneer de dataset waarin gezocht wordt verandert, aangezien het voorverwerken dan zinloos is. Dit is bijvoorbeeld het geval voor medische databases waar continu extra informatie of volledig nieuwe pati¨entendossiers worden toegevoegd. Voor deze gevallen bestaan alternatieve methodes die balanceren tussen de kost voor het 9
voorverwerken en de kost voor het zoeken. Een voorbeeld van zo een methode is de projectie methode [20]. Bij deze techniek worden de gegevens per dimensie gesorteerd bewaard. 3.6.3
Gewichtsvectoren en Relevance Feedback
Om de gelijkenis tussen twee datasets te bepalen wordt gebruik gemaakt van een afstandsmaat tussen feature-vectoren. Het is echter zo dat niet altijd alle features even belangrijk zijn. Om relevantere features te bevoordelen ten opzichte van minder relevante features is het gebruikelijk te werken met gewichtsvectoren. Een gewichtsvector kent aan elke feature een gewicht toe dat overeenstemt met de relevantie van de feature bij het bepalen van de gelijkenis. Een gewichtsvector kan op voorhand handmatig worden samengesteld aan de hand van bestaande kennis over de aard van de gebruikte features. Dit is echter niet altijd een voor de hand liggende taak en bovendien kunnen er features zijn waarvan de relevantie niet geweten is. Daarom worden dikwijls technieken gebruikt om het systeem de gewichten te laten leren. Door de gebruiker de resultaten te laten beoordelen (relevance feedback ) kan het systeem de gewichten updaten en zo relevante features bevoordelen [42]. Relevance feedback is een veelgebruikte techniek om de precisie van CBIR-systemen te verhogen [13]. Door gebruik te maken van dergelijke technieken komt de gebruiker centraal te staan in het zoekproces [36]. Dit is ook ´e´en van de kenmerken van recente frameworks, zoals JPEG (JPSearch [40]) en MPEG (MPEG-7 [23]), voor het zoeken in multimedia data.
3.7
Evaluatie
Een uitgebreide evaluatie van de bekomen resultaten met het systeem is een belangrijk aspect van het onderzoek [27]. Recall en precisie zijn standaardmaten voor het evalueren van zoeksystemen in het algemeen. Ze zijn gedefinieerd volgens volgende definities [33]: • Correcte verkregen items: Ak =
k X
Vn
n=1
waarbij k het aantal teruggekregen resultaten is, en Vn ∈ {0, 1} met Vn = 1 als het verkregen resultaat relevant is en Vn = 0 als het irrelevant is. De begrippen ”relevant” en ”irrelevant” zijn afhankelijk van de context. Bijvoorbeeld voor een CBIR met ROI’s uit mammografie¨en zijn resultaten met een goedaardig gezwel relevant voor een query met een goedaardig gezwel en zijn resultaten met een kwaadaardig gezwel irrelevant. • Foutieve verkregen items: Bk =
k X
(1 − Vn )
n=1
• Niet verkregen correcte items: Mk =
X N
Vn − Ak
n=1
met N het totaal aantal objecten in de database. 10
• Niet verkregen foutieve items: Dk =
X N
(1 − Vn ) − Bk
n=1
• Recall is de verhouding van het aantal relevante verkregen items tot het totaal aantal relevante items in de database: Ak Rk = Ak + M k • Precisie is de verhouding van het aantal relevante verkregen items tot het totaal aantal verkregen items: Ak Pk = Ak + Bk • Fallout is de verhouding van het aantal irrelevante verkregen items tot het totaal aantal irrelevante items in de database: Lk =
Bk Bk + Dk
• De F-score is het gewogen harmonische gemiddelde van precisie en recall: Fk =
2 × Pk × R k Pk + R k
Volgende plots kunnen gebruikt worden om een zoeksysteem te evalueren: • Precisie versus recall (retrieval effectiveness) • Correcte verkregen items versus foutieve verkregen items (ROC ) • Correct verkregen items versus fallout (relative operating characteristics) •
Ak Bk
versus Ak (response ratio)
Algemeen zullen effici¨ente CBIR systemen een hoge precisie voor vari¨erende recall-waarden vertonen [33]. Buiten deze standaardmaten zal er steeds gezocht worden naar state-of-theart evaluatietechnieken zodat vergelijking van de performantie van het systeem met andere systemen mogelijk is.
3.8 3.8.1
Uitbreidingen Afleiden van correlaties tussen features
Bij het gebruik van de multimodale data kunnen er ook technieken gebruikt worden om correlaties tussen de verschillende features af te leiden. Zo kan er bijvoorbeeld een verband bestaan tussen bepaalde resultaten van een bloedonderzoek en het detecteren van een bepaald type tumor. Deze kennis zou kunnen gebruikt worden om de kwaliteit van het zoeksysteem of de nauwkeurigheid van automatische classificatie te verbeteren. 11
3.8.2
Computer Aided Diagnosis (CAD)
Computer Aided Diagnosis (CAD) is een onderzoeksdomein dat dicht tegen CBIR aanligt. CAD is een classificatieprobleem waarbij een computersysteem een query probeert te classificeren aan de hand van gekende voorbeelden (Case-Based Reasoning), en zo een diagnose probeert voor te stellen aan de arts. Algemeen is er eerder nood aan systemen die een arts helpen bij het stellen van zijn diagnose dan systemen die het stellen van een diagnose volledig overnemen [27]. Toch kan een CAD ook gezien worden als hulpmiddel. Een interessante mogelijkheid is om een statistische spreiding over de mogelijke classificatie-klasses te geven in plaats van enkel de meest verwachte klasse. Voor tumormassa’s kan het resultaat dan bijvoorbeeld ”80% kans goedaardig, 20% kwaadaardig” zijn. Deze spreiding is ook op een voor de hand liggende manier af te leiden uit de resultaten verkregen met een inhoud-gebaseerd zoeksysteem. Toch kan deze mogelijkheid ook met andere technieken zoals Artifici¨ele Neurale Netwerken (ANN) of Suport Vector Machines (SVM), die over het algemeen effici¨enter zijn voor classificatieproblemen, bestudeerd worden.
12
4
Planning
De eerste 3 maanden van de onderzoeksperiode zullen hoofdzakelijk gespendeerd worden aan een uitgebreide literatuurstudie (LI). Over de hele projectperiode zal de literatuur steeds bijgehouden worden om up-to-date te blijven over de laatste stand van zaken in het domein. In de eerste 2 jaar zal voornamelijk aan het uitwerken van het framework worden gewerkt. Dit zal in verschillende stappen gebeuren. De eerst stap is het ontwerpen van een algemeen design (DE), daarna zal een basisframework (BF) worden uitgewerkt. Vervolgens zal dit basisframework stap voor stap worden uitgebreid. Eerst zal de nadruk liggen op het omgaan met ontbrekende features (OF), daarna op de integratie van relevance feedback (RF) en de uitbreiding naar een dynamische database (DD). De mijlpaal voor het afwerken van het framework is het laatste kwartaal van het eerste jaar van de tweede termijn. Gelijktijdig met het ontwerpen van het framework zal ook aandacht besteed worden aan de specifieke medische toepassingen (CA). De strategie zal zijn om bij aanvang van elk van de verschillende onderzoekstopics een aantal technieken te ontwerpen, implementeren en uit te testen en deze op basis van de resultaten verder te verfijnen of te herconcipi¨eren. Vanaf het begin van de tweede termijn zal er ook gewerkt worden aan het uitwerken van een eenvoudige user interface (UI) en later aan de uitbreidingen (UB). Naast de continue evaluatie (EV) van het systeem zal aandacht besteed worden aan de evaluatie door de uiteindelijke eindgebruikers (EE) en bijhorende optimalisaties. Voor het schrijven van de doctoraatsthesis (DT) worden de laatste drie kwartalen voorzien. Over de hele periode wordt tijd voorzien voor evaluatie (EV), literatuurstudie (LI), rapportering (RA), het bijwonen van conferenties (CO) en het zoeken naar bruikbare algoritmes, technieken en implementaties (ATI). De eerste belangrijkste mijlpalen zijn het afwerken van een basisframework voor het einde van het eerste jaar, de rapportering voor de aanvraag van de tweede termijn en het afwerken van het volledig framework in het laatste kwartaal van het 3de jaar. Mijlpaal voor het volledig uitwerken van de medische toepassingen is het eerste kwartaal van het vierde jaar. Ook de user interface, uitbreidingen en gebruikersevaluaties zullen afgewerkt worden in de loop van het laatste jaar. Het laatste doel is het afwerken van de doctoraatsthesis. Een volledig overzicht van mijlpalen en voorziene tijd per taak is af te leiden uit de grafische voorstelling van de planning, gegeven in figuur 3. Merk op dat de verschillende taken in elkaar overvloeien en de exacte indeling zal be¨ınvloed worden door de wetenschappelijke voortgang in het domein.
Jaar 1
Jaar 2
Jaar 3
Jaar 4
LI, RA, CO, ATI, EV LI
DE
BF
hoofdactiviteit nevenactiviteit
DD RF
UB DT
UI
OF
EE CA
Figuur 3: Grafische voorstelling van de planning
13
5
Toepassingsmogelijkheden
In de medische sector zijn er drie directe toepassingen van inhoud-gebaseerde zoeksystemen in het algemeen: diagnostiek, onderzoek en onderwijs. Andere belangrijke toepassingen zijn automatische classificatie en annotatie/codificatie van beelden of dossiers [27]. De eerste toepassing, diagnostiek, is zonder twijfel de moeilijkste maar meest interessante toepassing. Om het systeem te gebruiken als een hulpmiddel bij het stellen van diagnoses moet de kwaliteit bewezen worden. De verwachting is dat vooral hiervoor het gebruiken van multimodale data een positieve evolutie kan zijn. Eens de kwaliteit van het systeem bewezen is, moet het systeem ook door artsen worden aanvaard als een nuttig hulpmiddel. Ook bij het onderzoek kan een inhoud-gebaseerd zoeksysteem een nuttig hulpmiddel zijn. Onderzoekers hebben meer keuze tussen nuttige voorbeelden om te gebruiken in hun onderzoek. Het is bovendien niet ondenkbaar dat door het toevoegen van visuele eigenschappen in medische studies nieuwe correlaties tussen visuele aspecten, diagnoses en andere tekstuele informatie zouden kunnen gevonden worden. De laatste hoofdtoepassing is te vinden in het onderwijs. Het zoeksysteem kan docenten helpen bij het zoeken naar interessante voorbeelden om te presenteren aan de studenten. Hiervoor zal de docent niet enkel kunnen zoeken op basis van gestelde diagnoses, maar hij zal bijvoorbeeld ook kunnen zoeken naar op het eerste zicht gelijkaardige dossiers maar met verschillende diagnoses. Verder kan een dergelijk zoeksysteem beschikbaar gesteld worden aan de studenten zelf, zodat deze op een interactieve manier door de data kunnen browsen. Deze verschillende aspecten kunnen de kwaliteit van het onderwijs verhogen. Kwalitatieve annotatie/codificatie van medische beelden of volledige pati¨entendossiers vormt door de grote toename aan dossiers een probleem. Goede annotatie en codificatie vragen namelijk veel tijd, die helaas niet altijd beschikbaar is in de dagdagelijkse medische praktijk. Wanneer grote databases met correct geannoteerde pati¨entendossiers beschikbaar zijn, kan een inhoud-gebaseerd zoeksysteem gebruikt worden bij het zoeken naar gelijkaardige gevallen en zo een hulpmiddel zijn voor semi-automatische annotatie. De zoektechnieken in multimodale data zullen worden uitgewerkt voor toepassingen in het medische domein, maar de gebruikte technieken zullen onafhankelijk zijn van de context. Dit wil zeggen dat de zoektechnieken ook zullen kunnen toegepast worden in andere domeinen dan de medische sector.
14
Referenties [1] Gebruik van geautomatiseerde segmentatie bij volumetrische en dynamische ct beelden met iv contrast in combinatie met pet voor kwantitatieve meting van de respons bij behandeling van kanker. FWO-voorstel van de onderzoeksgroepen BEFY (AZ-VUB) en ETRO (VUB), 2006-2009. [2] Ica4dt wp2: Mammo-cad (mcad). IBBT-GBO-project. Industri¨ele partners: AGFA, BARCO, MEDISIM, NAMAHN, September 2005 - Augustus 2007. [3] H. Alto, R.M. Rangayyan, and J.E.L. Desautels. Content-based retrieval and analysis of mammographic masses. Journal of Electronic Imaging, 14(2):in–press, 2005. [4] K.P. Andriole, R.L. Morin, and R.L. Arenson. Addressing the coming radiology crisis - the society for computer applications in radiology transforming the radiological interpretation process initiative. Journal digital imaging, 17:235–243, 2004. [5] National Electrical Manufacturers Association. Digital imaging and communications in medicine (dicom) - introduction and overview, 2006. [6] AZ-VUB. Het electronisch medisch dossier in het az-vub. magAZine - Tijdschrift van het Academisch Ziekenhuis van de Vrije Universiteit Brussel, 6:12–13, 2002. [7] Bloom. What is the tnm system? RRI Bloom Newsletter, 4, 2005. [8] C. Le Bozec, E. Zapletal, M.-C. Jaulent, D. Heudes, and P. Degoulet. Towards contentbased image retrieval in his-integrated pacs. Proceedings of the Annual Symposium of the American Society for Medical Informatics (AMIA), pages 477–481, 2000. [9] J.M. Bueno, F. Chino, A.J.M. Traina, C.J. Traina, and P.M. Azevedo-Marques. How to add content-based image retrieval capacity into a pacs. Proceedings of the IEEE Symposium on Computer-Based Medical Systems, pages 312–326, 2002. [10] Nawei Chen. A survey of indexing and retrieval of multimodal documents: Text and images. Technical report, School of Computing - Queen’s University, Kingston, Ontario, Canada, 2006. [11] SIA Ka Cheung. Issues on content-based image retrieval. Master’s thesis, The Chinese University of Hong Kong, 2004. [12] Nainil C. Chheda. Electronic medical records and continuity of care records – the utility theory. Application of Information Technology and Economics, 2005. [13] Ritendra Datta, Jia Li, and James Z. Wang. Content-based image retrieval - approaches and trends of the new age. In MIR ’05: Proceedings of the 7th ACM SIGMM international workshop on Multimedia information retrieval, pages 253–262, New York, NY, USA, 2005. ACM Press. [14] Pedro A. de Alarc´on, Alberto D. Pascual-Montano, and Jos´e M. Carazo. Spin images and neural networks for efficient content-based retrieval in 3d object databases. In CIVR ’02: Proceedings of the International Conference on Image and Video Retrieval, pages 225–234, London, UK, 2002. Springer-Verlag.
15
[15] M. de Berg, M. van Kreveld, M. Overmars, and O. Schwarzkopf. Computational Geometry – Algorithms and Applications. Springer Verlag, 1997. [16] CJ D’Orsi, DJ Getty, JA Swets, RM Pickett, SE Seltzer, and BJ McNeil. Reading and decision aids for improved accuracy and standardization of mammographic diagnosis. Radiology, 184:619–622, 1992. [17] A.J. Duerinckx and E.J. Pisa. Filmless picture archiving and communication system (pacs) in diagnostic radiology. Proc SPIE, 318:9–18, 1982. [18] Samuel J. Dwyer. A personalized view of the history of pacs in the usa. In G. James Blaine and L. Eliot, editors, Medical Imaging 2000: PACS Design and Evaluation: Engineering and Clinical Issues, volume 3980, pages 2–9. Proceedings of the SPIE, 2000. [19] E. El-Kwae, H. Xu, and M. R. Kabuka. Content-based image retrieval in picture archiving and communication systems. Journal of Digital Imaging, 13(2):70–81, 2000. [20] J.H. Friedman, F. Baskett, and L.J. Shustek. An algorithm for finding nearest neighbors. IEEE transactions on computers, C-24:1000–1006, 1975. [21] Peter Ingwersen. Cognitive perspectives of information retrieval interaction: elements of a cognitive ir theory. Journal of documentation, 52(1):3–50, 1996. [22] T. M. Lehmann, M. O. Guld, C. Thies, B. Fischer, M. Keysers, D. Kohnen, H. Schubert, and B. B. Wein. Content-based image retrieval in medical applications for picture archiving and communication systems. Medical Imaging, 5033, 2003. [23] Peiya Liu, editor. MPEG-7 - The Generic Multimedia Content Description Standard, Part 1. Siemens Coporate Research, IEEE MultiMedia, 2002. [24] Beatriz Lopez, Carles Pous, Joaquin Serena, and Jordi Piula. Cooperative casebased agents for acute stroke diagnosis. In Antonio Moreno, Ulises Cortes, Roberta Annicchiarico, and John Nealon, editors, Proceedings of the fourth workshop on agents applied in health care, pages 21–28, Riva del Garda, Italy, 2006. [25] B.S. Manjunath, Philippe Salembier, and Thomas Sikora, editors. Introduction to MPEG7: Multimedia Content Description Interface. John Wiley & Sons Ltd, 2002. [26] Michael E. Mavroforakis, Harris V. Georgiou, Nikos Dimitropoulos, Dionisis Cavouras, and Sergios Theodoridis. Mammographic masses characterization based on localized texture and dataset fractal analysis using linear, neural and support vector machine classifiers. Artificial Intelligence in Medicine, 37:145–162, 2006. [27] Henning M¨ uller, Nicolas Michoux, David Bandon, and Antoine Geissbuhler. A review of content-based image retrieval systems in medical applications - clinical benefits and future directions. International journal Medical Information, 73:1–23, 2004. [28] Nuno Otero, Steffen Knoop, Chrystopher L. Nehaniv, Dag Sydral, Kerstin Dautenhahn, and R¨ udiger Dillmann. Distribution and recognition of gestures in human-robot interaction. In The 15th IEEE International Symposium on Robot and Human Interactive Communication, pages 103–110, Hatfield, UK, 2006.
16
[29] H. Qi and W.E. Snyder. Content-based image retrieval in pacs. Journal of Digital Imaging, 12(2):81–83, 1999. [30] Rangaraj M. Rangayyan. Biomedical Image Analysis. CRC Press, 2005. [31] Hector Nunez Rocha. Feature Weighting in Plain Case-Based Diagnosis. PhD thesis, Technical University of Catalonia, 2004. [32] Chi-Ren Shyu, Carla Brodley, Avi Kak, and Akio Kosaka. Assert: A physician-int-theloop content-based retrieval system for hrct image databases. Computer Vision and Image Understanding, 75(1-2):111–132, 1999. [33] J.R. Smith. Image retrieval evaluation. In IEEE Workshop on Content-based Access of Image and Video Libraries, pages 112–113, 1998. [34] Rik Stokking. Integrated Visualization of Functional and Anatomical Brain Images. PhD thesis, Universiteit Utrecht, 1998. [35] L.H.Y. Tang, R. Hanka, and H.H.S. Ip. A review of intelligent content-based indexing and browsing of medical images. Health informatics journal, 5:50–49, 1999. [36] Egon L. van den Broek. Human-centered Content Based Image Retrieval. PhD thesis, Radboud Universiteit Nijnegem, 2005. [37] Remco C. Veltkamp and Mirela Tanase. Content-based image retrieval systems: A survey. Technical report, Department of Computing Science, Utrecht University, 2002. [38] D. Randall Wilson and Tony R. Martinez. Improved heterogeneous distance functions. Journal of Artificial Intelligence Research, 6:1–34, 1997. [39] Y Wu, ML Giger, K Doi, CJ Vyborny, RA Schmidt, and CE Metz. Artificial neural networks in mammography: application to decision making in the diagnosis of breast cancer. Radiology, 187:81–87, 1993. [40] Akio Yamada, Mun-Kew Leong, and Who Chang. Information technology - jpsearch part 1: System framework and components. Technical report, JPSearch AHG, 2006. [41] Chuan Zhou, Heang-Ping Chan, Chintana Paramagul, Marilyn A. Roubidoux, Berkman Sahiner, Labomir M. Hadjiiski, and Nicholas Petrick. Computerized nipple identification for multiple image analysis in computer-aided diagnosis. Medical Physics, 31:2871–2882, 2004. [42] X. S. Zhou and T. S. Huang. Relevance feedback in image retrieval: A comprehensive review. Multimedia Systems, 8:536–544, 2003.
17