UNIVERSITY OF GRONINGEN J OHANN B ERNOULLI I NSTITUTE FOR M ATHEMATICS AND C OMPUTER S CIENCE
UNIVERSITY OF SALERNO D EPARTMENT OF I NFORMATION AND E LECTRICAL E NGINEERING AND A PPLIED M ATHEMATICS
B IO - INSPIRED ALGORITHMS FOR PATTERN RECOGNITION IN AUDIO AND IMAGE PROCESSING A dissertation supervised by promotors P ROF. D R .
SC . TECHN .
N ICOLAI P ETKOV
P ROF. D R . M ARIO V ENTO and submitted by N ICOLA S TRISCIUGLIO in fulfillment of the requirements for the Degree of P HILOSOPHIÆ D OCTOR (P H .D.) May 2016 ISBN: 978-90-367-8931-8 (ISBN ebook: 978-90-367-8932-5)
Bio-inspired algorithms for pattern recognition in audio and image processing PhD thesis to obtain the degree of PhD at the University of Groningen on the authority of the Rector Magnificus Prof. E. Sterken and in accordance with the decision by the College of Deans. This thesis will be defended in public on Friday 10 June 2016 at 09.00 hours by Nicola Strisciuglio born on 16 November 1987 in Nocera Inferiore, Salerno, Italy
Supervisors Prof. N. Petkov Prof. M. Vento
Co-supervisor Dr. G. Azzopardi
Assessment committee Prof. A.C. Telea Prof. C.N. Schizas Prof. V. Loia Prof. X. Jiang
This research has been conducted at the Intelligent Systems group of Johann Bernoulli Institute for Mathematics and Computer Science (Onderzoeksinstituut: JBI) of University of Groningen and at the MIVIA research group of the Department of Information and Electrical Engineering and Applied Mathematics (DIEM) of University of Salerno. This research has been supported by the University of Groningen through an ”Ubbo Emmius” scholarship for international sandwich PhD programs and by the Department of Information and Electrical Engineering and Applied Mathematics of University of Salerno through a research grant on the project ”Embedded systems in critical domains” (cod. 4-17-12, P.O.R. Campania FSE 2007-2013).
Bio-inspired algorithms for pattern recognition in audio and image processing Nicola Strisciuglio ISBN: 978-90-367-8931-8 (printed version) ISBN: 978-90-367-8932-5 (electronic version)
To my lovely family
Abstract
This thesis investigates the construction of pattern recognition systems that are based on the computation of features inspired by the characteristics of human auditory and visual systems. The thesis addresses two important applications in the fields of intelligent audio surveillance and medical image analysis. In particular, we propose two algorithms for the detection of audio events that can occur with various levels of signal-to-noise ratio (SNR) and two algorithms for the delineation of blood vessels in retinal fundus images. Audio analysis for detection of events of interest has recently raised large interest in the pattern recognition community due to increasing demand for safety in public and private environments and the consequent demand for improved surveillance systems. Traditional applications of audio analysis concern speech recognition, speaker identification and music classification. They usually require that the sound source is close to the microphone. This implies a low influence of noise on the functioning of the overall system. In applications like event detection for audio surveillance, the source of the sound of interest can be at any distance from the microphone. Thus, the detection system has to be able to detect events at various levels of SNR, sometimes also negative. Another key requirement for an audio surveillance system is the ability to detect events of interest when they are mixed with different kinds of background noise. Such constraints make the problem at hand very different from traditional applications of audio analysis. Intelligent audio surveillance is a recent research field and at the time of this work no public data sets were available for testing event detection algorithms. Thus, we constructed and publicly released two new data sets of abnormal events that can occur in everyday life, which we called MIVIA audio event and MIVIA road event data sets. We start from the consideration that an audio stream is composed of small, atomic units of sound, similarly to a piece of text that is composed of a number
of words. We propose a system for the detection of audio events based on the bag of features approach. Since the events of interest can be mixed with various types of background noise, we tailored the training phase of the proposed method in order to build a system robust to such variability. We tested the system for the detection of glass breaking, gun shot and scream events in public and private environments by using the audio clips in the MIVIA audio event data set. We achieved a high recognition rate (up to 86.7%) with a very low false positive rate (2.1% on the whole test set). Successively, we extended the system in order to be employed for monitoring and surveillance of roads, with the aim of detecting anomalous situations such as car crash and tire skidding events. We designed a deployment strategy for different kinds of road (from very calm country roads to very busy cities or motorways), based on an internationally accepted road noise model. We carried out experiments on the MIVIA road event data set and achieved a recognition rate (82%) and a false positive rate (2.85%) that confirm the performance achieved on the MIVIA audio event data set. In a further study, we take inspiration from some characteristics of the human auditory system to propose trainable filters, which we call CoPE filters, that automatically determine the important features from training audio samples. One of the critical steps for the construction of a pattern recognition system is, indeed, the choice of the most appropriate set of features to face the particular problem at hand, i.e. a feature engineering step. The CoPE filters are trainable as their structure is not fixed in the implementation but it is instead learned during a configuration process from training samples. This eliminates the needs of a features engineering step. The important features are learned directly from the events of interest, making the system easily adaptable to different sound recognition tasks and requiring less knowledge about the specific domain of application. We employ the responses of a bank of CoPE filters to build feature vectors that we use to describe the input audio stream. We train a classifier with such feature vectors in order to perform the detection task. We carried out experiments on the MIVIA audio event and the MIVIA road event data set, achieving a recognition rate (higher than 94%) and false positive rate (less than 4%) that are considerably better than the results achieved by the approach based on the bag of features architecture. In the second part of the thesis we address an important application in the field of medical image analysis, i.e. the segmentation of blood vessels in retinal fundus images. Retinal fundus imaging is a non-invasive tool that is widely employed by medical experts to diagnose various pathologies such as glaucoma, age-related macular degeneration, diabetic retinopathy and atherosclerosis. There is also evidence that such images may contain signs of non-eye-related pathologies, including cardiovascular and systemic diseases. In the last years, particular attention by medical
communities has been given to early diagnosis and monitoring of diabetic retinopathy, since it is one of the principal causes of blindness in the world. The manual inspection of retinal fundus images requires highly skilled people, which results in an expensive and time-consuming process. Thus, the mass screening of a population is not feasible without the use of computer aided diagnosis systems. Such systems could be used to refer to medical experts only the patients with suspicious signs of diseases. We introduce a novel method for the automatic segmentation of vessel trees in retinal fundus images. We propose a filter that selectively responds to vessels and that we call B-COSFIRE with B standing for bar which is an abstraction of a vessel. It is based on the existing COSFIRE (Combination Of Shifted Filter Responses) approach. A B-COSFIRE filter achieves orientation selectivity by computing the weighted geometric mean of the output of a pool of Difference-of-Gaussians filters, whose supports are aligned in a collinear manner. It achieves rotation invariance efficiently by simple shifting operations. The proposed filter is versatile as its selectivity is determined from any given vessel-like prototype pattern in an automatic configuration process. The results that we achieve on three publicly available data sets (DRIVE: Se = 0.7655, Sp = 0.9704; STARE: Se = 0.7716, Sp = 0.9701; CHASE DB1: Se = 0.7585, Sp = 0.9587) are higher than many of the state-of-the-art methods. In the last part of the thesis, we further investigate the flexibility and adaptability of the proposed B-COSFIRE filters and propose to employ them within a classification pipeline. The framework that we propose automatically determines the most appropriate sub-set of filters for the application at hand. Initially, we configure a bank of B-COSFIRE filters and use the responses obtained on training retinal images to form pixel-wise feature vectors, which describe vessel and non-vessel pixels. Then, we employ various techniques based on information theory and machine learning to select an optimal subset of B-COSFIRE filters. We finally train a classifier by using feature vectors constructed with the responses of the selected filters and employ it to classify every pixel in the testing image. The improvement of the results that we achieve on the DRIVE and STARE data sets with respect the unsupervised B-COSFIRE filters is statistically significant. We studied the computational requirements of the proposed algorithms in order to evaluate their applicability in real-world applications and the fulfillment of realtime constraints given by the considered problems. This thesis contributes to the development of bio-inspired algorithms for audio and image processing and promotes their use in higher-level pattern recognition systems.
Samenvatting
Dit proefschrift onderzoekt de constructie van patroonherkenningssystemen die gebaseerd zijn op kenmerken ge¨ınspireerd door de eigenschappen van het menselijk visueel en auditief systeem. Het proefschrift behandelt twee belangrijke toepassingen op het gebied van intelligente audio surveillance en medische beeldanalyse. In het bijzonder leggen we twee algoritmes voor de detectie van audio “gebeurtenissen” die voor kunnen komen met verschillende niveaus van signaal-ruis verhouding, en twee algoritmes voor de segmentatie van bloedvaten in retinale fundus beelden. Audioanalyse voor detectie van “gebeurtenissen van belang” heeft recentelijk aan interesse gewonnen in het vakgebied van patroonherkenning, dankzij de toenemende behoefte aan veiligheid in het publieke en private domein en het daaruit voortkomende verzoek voor betere surveillancesystemen / beveiligingssystemen. Typische toepassingen van audioanalyse zijn onder andere spraakherkenning, spreker identificatie en muziek classificatie. Normaliter vereisen deze toepassingen dat de geluidsbron nabij de microfoon is, om de invloed van ruis op het functioneren van het gehele systeem te beperken. In toepassingen zoals “gebeurtenis” detectie voor audiosurveillance kan de bron van het geluid op elke afstand van de microfoon zijn. Zodoende dient het detectiesysteem in staat te zijn om gebeurtenissen op verschillende SNR niveaus te detecteren. Een andere vereiste voor een audio surveillancesysteem is de mogelijkheid om “gebeurtenissen van belang” te detecteren wanneer deze vermengd zijn met verschillende soorten achtergrondgeluid. Dergelijke beperkingen maken het probleem in kwestie zeer afwijkend van klassieke toepassingen van audioanalyse. Intelligente audiosurveillance is een recent onderzoeksveld en ten tijde van dit onderzoek waren er geen openbare datasets beschikbaar voor het testen van algoritmes voor “gebeurtenisdetectie”. Derhalve hebben we twee nieuwe datasets van abnormale gebeurtenissen ontworpen en vrijgegeven.
De datasets, genaamd MIVIA audio event en MIVIA road event, bevatten abnormale gebeurtenissen die zich in het alledaagse leven voor kunnen doen. Ons uitgangspunt is de overweging dat een geluidsstroom bestaat uit kleine, atomische geluidseenheden, zoals een stuk tekst bestaat uit een aantal woorden. We dragen een systeem voor de detectie van audio gebeurtenissen aan dat gebaseerd is op de bag of features benadering. Aangezien de gebeurtenissen van belang gemengd kunnen zijn met verschillende soorten achtergrondgeluid, hebben we de trainingsfase van de voorgedragen methode afgesteld, om een systeem te ontwerpen dat dergelijke variabiliteit kan weerstaan. Het systeem is getest op detectie van brekend glas, geweerschoten en schreeuwen in publieke en priv´e omgevingen met gebruik van de audiofragmenten in de MIVIA audio event dataset. We behaalden een hoog herkenningspercentage (tot 86.7%) met een zeer laag fout-positief percentage (2.1% op de hele test set). Vervolgens hebben we het systeem uitgebreid voor ingebruikstelling bij het toezicht van wegen, met het doel om anomale situaties zoals botsingen of bandenslippingen te detecteren. We hebben een invoeringsstrategie ontworpen voor verschillende type wegen (van zeer rustige landwegen tot drukke steden of snelwegen), gebaseerd op een internationaal erkend weggeluidsmodel. De experimenten met de MIVIA road event dataset behaalden een herkenningspercentage (82%) en een fout-positief percentage (2.85%) die de behaalde resultaten met de MIVIA audio event dataset onderschrijven. In een vervolgonderzoek ge¨ınspireerd op enkele eigenschappen van het menselijk auditief systeem dragen we trainbare filters voor, genaamd CoPE filters, die automatisch de belangrijke onderdelen van training audio samples bepalen. Een cruciale stap in de constructie van een patroonherkenningssysteem is de keuze van de meest geschikte set van kenmerken voor de ophanden taak, oftewel de feature engineering stap. De CoPE filters zijn te trainen, aangezien hun structuur niet vast ligt in de implementatie; het wordt in plaats daarvan aangeleerd tijdens een configuratieproces van traningsmonsters. Hierdoor is een “features egineering” stap overbodig. De belangrijke kenmerken worden direct verworven uit de gebeurtenissen van belang, wat de systemen adaptief maakt voor verschillende geluidherkenningstaken en de vereiste kennis van het specifieke toepassingsdomein vermindert. We hanteren de resultaten van een bank van CoPE filters om feature-vectoren te bouwen die we gebruiken om de geluidsstroom van de input te beschrijven. Een classifier wordt getraind met dergelijke kenmerkvectoren om de detectietaak uit te voeren. We hebben de experimenten op de MIVIA audio event en de MIVIA road event datasets uitgevoerd, en deze behaalden een herkenningspercentage (hoger dan 94%) en een fout-positief percentage (minder dan 4%) die de resultaten behaald met de benadering gebaseerd op het bag of features ontwerp aanzienlijk verbeteren. In het tweede deel van dit proefschrift stellen we een belangrijke toepassing op
het gebied van medische beeldanalyse aan de orde, nl. de segmentatie van bloedvaten in retinale fundus beelden. Retinale fundus beeldvorming is een niet-invasief middel dat veel gebruikt wordt door medisch specialisten om verscheidene ziekten te diagnosticeren, waaronder glaucoom, leeftijdsgebonden maculadegeneratie, diabetische retinopathie en atherosclerose. Er is ook bewijs dat dergelijke beelden signalen van niet-oog gerelateerde ziektebeelden kunnen bevatten, waaronder cardiovasculaire en systemische ziekten. In de afgelopen jaren hebben medische gemeenschappen bijzondere aandacht geschonken aan vroegtijdige diagnostisering en controle van diabetische retinopathie, aangezien het een van de voornaamste oorzaken van blindheid is ter wereld. De handmatige inspectie van retinale fundus beelden vereist zeer vakkundig personeel, wat het een zeer duur en tijdrovend proces maakt. Zodoende is massale screening van een populatie niet haalbaar zonder de aanwending van computerondersteunde diagnosesystemen. Dergelijke systemen zouden gebruikt kunnen worden om enkel de pati¨enten met verdachte symptomen van ziekte door te verwijzen naar medisch specialisten. Wij introduceren een nieuwe methode voor de automatische segmentatie van bloedvatenbomen in retinale fundus beelden. We leggen een filter voor dat selectief reageert op bloedvaten, genaamd B-COSFIRE noemen, de B refererend naar bar; een abstractie van een bloedvat. Het is gebaseerd op de bestaande COSFIRE (Combination of Shifted Filter Responses) benadering. Een B-COSFIRE filter behaalt ori¨entatieselectiviteit door het gewogen geometrisch gemiddelde te berekenen van de output van een poel van Difference-of-Gaussians filters waarvan de steunen op collineaire wijze zijn uitgelijnd. Het bereikt op effectieve wijze rotatie-invariantie middels simpele shift operaties. Het voorgelegde filter is veelzijdig, aangezien de selectiviteit van het filter bepaald wordt door elk gegeven bloedvatachtige prototype patroon in een automatisch configuratieproces. De resultaten die we behaald hebben op drie publiekelijk beschikbare datasets (DRIVE: Se = 0.7655, Sp = 0.9704; STARE: Se = 0.7716, Sp = 0.9701; CHASE DB1: Se = 0.7585, Sp = 0.9587) zijn hoger dan vele state of the art methoden. In het laatste gedeelte van het proefschrift wordt er een vervolgonderzoek omschreven omtrent de flexibiliteit en het aanpassingsvermogen van de voorgedragen B-COSFIRE filters en stellen we voor ze in gebruik te stellen binnen een classificatiekanaal. Het raamwerk dat we voordragen, bepaalt automatisch de meest geschikte subset van filters voor de toepassing ophanden. In eerste instantie configureren we een bank van B-COSFIRE filters en gebruiken de verkregen responsies om retinale beelden te trainen in het vormen van pixelmatige kenmerkvectoren die bloedvaten- en non-bloedvatenpixels beschrijven. Daarna hanteren we verscheidene technieken gebaseerd op information theory en machine learning om een optimale subset van B-COSFIRE filters te selecteren. De verbetering van de resultaten
die we bereiken met de DRIVE en STARE datasets ten opzichte van de B-COSFIRE filters zonder supervisie is statistisch significant. We bestudeerden de computationele eisen van de voorgedragen algoritmes om zowel hun toepasbaarheid in werkelijke toepassingen, als de uitvoering van echtijd beperkingen, ingegeven door de overwogen problemen, te evalueren. Dit proefschrift draagt bij aan de ontwikkeling van bio-ge¨ınspireerde algoritmes voor audio- en beeldverwerking en bevordert hun toepassing in hogere niveaus van patroonherkenningssystemen.
Contents
List of Figures
iv
List of Tables
vi
Acknowledgements
ix
1
Introduction 1.1 Scope . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Thesis Organization . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
Audio events detection in noisy environments 2.1 Introduction . . . . . . . . . . . . . . . . . . . 2.2 The proposed method . . . . . . . . . . . . . 2.2.1 Short-time and long-time descriptors 2.2.2 The classifier . . . . . . . . . . . . . . 2.3 Experimental results . . . . . . . . . . . . . . 2.3.1 Performance evaluation . . . . . . . . 2.3.2 Performance comparison . . . . . . . 2.3.3 Sensitivity analysis . . . . . . . . . . . 2.4 Conclusions . . . . . . . . . . . . . . . . . . .
3
1 3 4
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
7 7 10 10 14 14 17 20 23 24
Design of a practical system for audio surveillance of roads 3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Method . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Low-level features extraction . . . . . . . . . . . . 3.2.2 Dictionary learning . . . . . . . . . . . . . . . . . . 3.2.3 High-level representation . . . . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
25 25 28 28 29 29
i
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
Contents 3.2.4 Classification architecture . . . . . . . Deployment Architecture . . . . . . . . . . . 3.3.1 Intensity level of the event of interest 3.3.2 Intensity level of the traffic noise . . . 3.3.3 Architecture discussion . . . . . . . . Experimental results . . . . . . . . . . . . . . 3.4.1 The data set . . . . . . . . . . . . . . . 3.4.2 Experimental setup . . . . . . . . . . . 3.4.3 Performance evaluation . . . . . . . . 3.4.4 Sensitivity analysis . . . . . . . . . . . 3.4.5 Real-time performance . . . . . . . . . Conclusions . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
30 31 32 34 35 37 37 39 39 42 45 45
Trainable CoPE filters for audio events detection 4.1 Introduction . . . . . . . . . . . . . . . . . . . 4.2 Rationale . . . . . . . . . . . . . . . . . . . . . 4.3 Method . . . . . . . . . . . . . . . . . . . . . . 4.3.1 Gammatone filterbank . . . . . . . . . 4.3.2 CoPE filter . . . . . . . . . . . . . . . . 4.3.3 A bank of CoPE filters . . . . . . . . . 4.3.4 Classifier . . . . . . . . . . . . . . . . . 4.4 Data sets . . . . . . . . . . . . . . . . . . . . . 4.4.1 MIVIA audio events . . . . . . . . . . 4.4.2 MIVIA road events . . . . . . . . . . . 4.5 Experiments . . . . . . . . . . . . . . . . . . . 4.5.1 Performance and results . . . . . . . . 4.5.2 Sensitivity analysis . . . . . . . . . . . 4.5.3 Results comparison . . . . . . . . . . . 4.6 Discussion . . . . . . . . . . . . . . . . . . . . 4.7 Conclusion . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
47 48 50 52 52 53 56 57 57 57 58 58 60 61 62 66 68
Retinal vessel delineation using trainable B-COSFIRE filters 5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Proposed method . . . . . . . . . . . . . . . . . . . . . . . 5.2.1 Overview . . . . . . . . . . . . . . . . . . . . . . . 5.2.2 Detection of Changes in Intensity . . . . . . . . . . 5.2.3 Configuration of a B-COSFIRE Filter . . . . . . . . 5.2.4 Blurring and Shifting DoG Responses . . . . . . . 5.2.5 Response of a B-COSFIRE Filter . . . . . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
69 70 72 72 73 75 75 76
3.3
3.4
3.5 4
5
ii
Contents . . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
77 77 79 79 80 81 83 87 93
Automatic selection of an optimal set of B-COSFIRE filters 6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Method . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2.1 B-COSFIRE filters . . . . . . . . . . . . . . . . . . 6.2.2 A bank of B-COSFIRE filters . . . . . . . . . . . 6.2.3 Feature transformation and rescaling . . . . . . 6.2.4 Automatic subset selection of B-COSFIRE filters 6.2.5 Classification . . . . . . . . . . . . . . . . . . . . 6.2.6 Application phase . . . . . . . . . . . . . . . . . 6.3 Materials . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3.1 Data sets . . . . . . . . . . . . . . . . . . . . . . . 6.3.2 B-COSFIRE implementation . . . . . . . . . . . . 6.4 Experiments . . . . . . . . . . . . . . . . . . . . . . . . . 6.4.1 Pre-processing . . . . . . . . . . . . . . . . . . . 6.4.2 Evaluation . . . . . . . . . . . . . . . . . . . . . . 6.4.3 Results . . . . . . . . . . . . . . . . . . . . . . . . 6.4.4 Statistical analysis . . . . . . . . . . . . . . . . . 6.4.5 Comparison with existing methods . . . . . . . 6.5 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . 6.6 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
97 97 100 101 103 105 105 107 107 109 109 109 109 109 110 111 115 115 117 119
5.3
5.4 5.5 6
7
5.2.6 Achieving Rotation Invariance 5.2.7 Detection of Bar Endings . . . Results . . . . . . . . . . . . . . . . . . 5.3.1 Data Sets and Ground Truth . . 5.3.2 Pre-processing . . . . . . . . . 5.3.3 Performance Measurements . . 5.3.4 Results . . . . . . . . . . . . . . Discussion . . . . . . . . . . . . . . . . Conclusions . . . . . . . . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
Summary and Outlook 121 7.1 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 7.2 Outlook . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
Bibliography
127
Research Activities
139
iii