¿Cómo podemos construir modelos de aprendizaje automático que sean capaces de aprender nuevos conceptos rápidamente usando pocos ejemplos de entrenamiento? Eso es lo que el meta aprendizaje pretende resolver a través de esquemas de aprendizaje que se adapten fácilmente a nuevas tareas con pocos ejemplos. Uno de los modelos de meta aprendizaje ampliamente usados en verificación de rostros son las redes siamesas que se enfocan en aprender un métrica de distancia para comparar ejemplos.
Currently, Deep Learning has performed remarkably in computer vision tasks, and this good performance is on continuous improvement. However, these models are applied in a black-box manner, in a way that we do not know how the decision-making process is done. Not understanding how the model is behaving and only focussing on good predictions can lead to several problems when applying the model in the real world. In this talk, I will review different state-of-the-art techniques that help to explain the model's predictions, challenges, and prospects for explainability.
Person Re-Identification is a challenging task that aims to retrieve all instances of a query image across a system of non-overlapping cameras. Due to the various extreme changes of view, it is common that local regions that could be used to match people are suppressed, which leads to a scenario where approaches have to evaluate the similarity of images based on less informative regions. In this work, we introduce the Top- DB-Net, a method based on Top DropBlock that pushes the network to learn to focus on the scene foreground, with special emphasis on the most task-relevant regions and, at the same time, encodes low informative regions to provide high discriminability. The Top-DB-Net is composed of three streams: (i) a global stream encodes rich image information from a backbone, (ii) the Top DropBlock stream encourages the backbone to encode low informative regions with high discriminative features, and (iii) a regularization stream helps to deal with the noise created by the dropping process of the second stream, when testing the first two streams are used. Vast experiments on three challenging datasets show the capabilities of our approach against state-of-the-art methods. Qualitative results demonstrate that our method exhibits better activation maps focusing on reliable parts of the input images.
En esta ponencia hablaré sobre nuestra última publicación aceptada en Findings of EMNLP 2020. Nuestro trabajo tiene como objetivo aprovechar el espacio visual de características para transmitir información entre idiomas. En este trabajo además demostramos que los modelos entrenados para generar descripciones textuales de las imágenes en más de un idioma, condicionados a una imagen de entrada, pueden aprovechar su espacio de características entrenado conjuntamente durante la inferencia para pivotar entre idiomas. Para un mejor entendimiento de este trabajo iniciaré con una breve descripción de dos puntos importantes que son Machine Translation e Image Captioning.
El descubrimiento de patrones importanes puede ayudar a las ciudades a planificar, monitorear y asignar recursos más eficientemente. De esta manera, las ciudades se puede convertir en ciudades inteligentes con comunidades más organizadas. En este trabajo, exploro métodos de machine learning para resolver problemas en ciudades inteligentes relacionados al consumo de agua y la predicción de tiempos de resolución de emergencias. Más especificamente, my trabajo se centra en ensemble learning, modelos sequencce-to-sequence y la combinación de modelos gráficos probabilísticos y de deep learning. Además, realizo la comparación, adaptación e implementación de estos métodos para abordar las características particulares de estos datos y problemas de la ciudades inteligentes.
In this talk I will give an overview of the recent developments at the intersection of computer vision and vision science, that are slowly suggesting the creation of a new topic of study: hybrid perceptual systems, which are systems that are part man, and part machine -- as a gateway to understand the general principles of high-level vision that go beyond the current tendencies in Deep Learning.
La cuantificación de la biomasa arbórea es un proceso crítico para la estimación de las existencias de carbono a nivel de rodal, paisaje y nacional. Un desafío importante para los administradores forestales es la cantidad de esfuerzo que implica documentar los niveles de almacenamiento de carbono, especialmente en términos de trabajo humano. Proponemos un método para cuantificar la cantidad de carbono en las masas forestales. En nuestro enfoque, obtenemos imágenes aéreas desde donde construimos reconstrucciones 3D del terreno. Utilizando los ortomosaicos resultantes, identificamos árboles individuales y procesamos sus nubes de puntos para extraer información para estimar la altura del árbol e inferir el diámetro, que empleamos en ecuaciones alométricas para calcular el contenido de carbono. Comparamos nuestros resultados con estimaciones de carbono obtenidas a partir de ecuaciones alométricas aplicadas a mediciones manuales de diámetro y altura de árboles.
Que sucede si entrenamos un modelo para clasificar perros y gatos, pero despues lo probamos con una imagen de un humano? Generalmente el modelo dira que la imagen es un perro o un gato, y no tiene la posibilidad de indicar que la imagen no contiene una clase que pueda reconocer.
Esto sucede porque las redes neuronales clasicas no contienen formas de estimar su propia incertidumbre (la llamada incertidumbre epistemica), y esto tiene consecuencias en el uso practico de estos modelos, como la seguridad cuando se usan junto a humanos y sistemas autonomots como robots. La solucion es la red neuronal bayesiana.
En esta charla cubrire los conceptos basico sobre redes neuronales bayesianas, y como estas pueden ayudarnos a producir robots mas seguros, con respecto a percepcion y control de estos. Incluire ejemplos de la literatura y mi propia investigacion.
La tuberculosis (TB) es uno de los problemas de salud pública más graves del Perú y del mundo. En esta charla se expondrá el uso de la arquitectura U-Net para realizar la segmentación automática de cordones de TB. De esta forma se busca facilitar y automatizar el diagnóstico de TB por el método MODS y usando microscopía sin lente.
En la actualidad existen avanzados métodos usando deep learning para diagnostico médico trabajando de forma supervisada en alguno de los escenarios: - 1 imagen(X) 2d de entrada, un diagnóstico(y) de salida.(usando convnets2d) - 1 volumen(X) 3d de entrada, un diagnostico(y) de salida.(usando convnets3d) Pero en algunos casos, algunos laboratorios radiologicos tienen una coleccion de imagenes para un paciente y un solo diagnostico para el mismo por lo cual no se puede usar ninguno de los 2 metodos antes descritos. Usando un dataset propio de un laboratorio en Guatemala hemos comprobado que es posible crear un modelo muchos a uno (secuencia de imagenes de entrada, un unico diagostico por paciente como salida) combinando convnets con LSTMs y diseñando un training loop adecuado al caso.
El reconocimiento del lenguaje de señas (SLR) es una tarea muy desafiante debido a la complejidad de aprender o desarrollar descriptores para representar sus parámetros primarios (ubicación, movimiento y configuración de la mano). En este trabajo, se presenta un método basado en aprendizaje profundo para el reconocimiento de lengua de señas. Este enfoque, representa información multimodal (RGB-D) a través de mapas de textura para describir la ubicación y el movimiento de la mano. A continuación, se utilizan dos modelos CNN de tres y dos flujos para aprender características sólidas capaces de reconocer una seña dinámica.