M.Sc. Thesis

Anotación Automática de Imágenes Médicas Usando la Representación de Bolsa de Características

Automatic Medical Image Annotation Using a Bag of Feature Representation

[download] [slides]

Resumen

La anotación automática de imágenes médicas se ha convertido en un proceso necesario para la gestión, búsqueda y exploración de las crecientes bases de datos médicas para apoyo al diagnóstico y análisis de imágenes en investigación biomédica. La anotación automática consiste en asignar conceptos de alto nivel a imágenes a partir de las características visuales de bajo nivel. Para esto se busca tener una representación de la imagen que caracterice el contenido visual de ésta y un modelo de aprendizaje entrenado con ejemplos de imágenes anotadas. Este trabajo propone explorar la Bolsa de Características (BdC) para la representación de las imágenes de histología y los Métodos de Kernel (MK) como modelos de aprendizaje de máquina para la anotación automática. Adicionalmente se exploró una metodología de análisis de colecciones de imágenes para encontrar patrones visuales y sus relaciones con los conceptos semánticos usando Análisis de Información Mutua, Selección de Características con Máxima-Relevancia y Mínima-Redundancia (mRMR) y Análisis de Biclustering. La metodología propuesta fue evaluada en dos bases de datos de imágenes, una con imá- genes anotadas con los cuatro tejidos fundamentales y otra con imágenes de tipo de cáncer de piel conocido como carcinoma basocelular. Los resultados en análisis de imágenes revelan que es posible encontrar patrones implícitos en colecciones de imágenes a partir de la representación BdC seleccionan- do las palabras visuales relevantes de la colección y asociándolas a conceptos semánticos mientras que el análisis de biclustering permitió encontrar algunos grupos de imágenes similares que comparten palabras visuales asociadas al tipo de tinción o conceptos. En anotación automática se evaluaron distintas configuraciones del enfoque BdC. Los mejores resultados obtenidos presentan una Precisión de 91 % y un Recall de 88 % en las imágenes de histología, y una Precisión de 59 % y un Recall de 23 % en las imágenes de histopatología. La configuración de la metodología BdC con los mejores resultados en ambas colecciones fue obtenida usando las palabras visuales basadas en DCT con un diccionario de tamaño 1,000 con un kernel Gaussiano.

Abstract

The automatic annotation of medical images has become a necessary process for managing, searching and exploration of growing medical image databases for diagnostic support and image analysis in biomedical research. The automatic annotation is to assign high-level concepts to images from the low-level visual features. For this, is needed to have a image representation that characterizes its visual content and a learning model trained with examples of annotated images. This paper aims to explore the Bag of Features (BOF) for the representation of histology images and Kernel Methods (KM) as models of machine learning for automatic annotation. Additionally, we explored a methodology for image collection analysis in order to find visual patterns and their relationships with semantic concepts using Mutual Information Analysis, Features Selection with Max-Relevance and Min-Redundancy (mRMR) and Biclustering Analysis. The proposed methodology was evaluated in two image databases, the first have images annotated with the four fundamental tissues, and the second have images of a type of skin cancer known as Basal-cell carcinoma. The image analysis results show that it is possible to find implicit patterns in image collections from the BOF representation. This by selecting the relevant visual words in the collection and associating them with semantic concepts, whereas biclustering analysis allowed to find groups of similar images that share visual words associated with the type of stain or concepts. The Automatic annotation was evaluated in different settings of BOF approach. The best results have a Precision of 91% and Recall of 88% in the histology images, and a Precision of 59% and Recall of 23% in histopathology images. The configuration of BOF methodology with the best results in both datasets was obtained using the DCT-based visual words in a dictionary size of 1,000 with a Gaussian kernel.

Overview of BoF approach.

Overview of automatic image annotation framework proposed.