Ponencias Especializadas

Jueves 09 de Enero

Monocular Vision-Based Hydrological Object Detection using Deep Learning

MSc. Wilder Nina Choquehuayta, Universidad Tecnológica del Perú

Resumen:

El uso de robots acuáticos en tareas en la Pesca y Acuicultura cada vez son más requeridos para la automatización y mejoramiento de procesos. Actualmente para la sostenibilidad de Recursos Marinos se realizan muestreos mediantes técnicas de transectos realizados por buzos científicos. El presente trabajo propone que mediante algoritmos de Detección de Objetos pueden lograr identificar y detectar diferentes tipos recursos tales como estrellas de mar, cangrejos, erizos, entre otros utilizando Arquitecturas de Deep Learning, las cuales pueden ser usadas en robots acuáticos (ROV) mediante una cámara monocular.

GANs para Traducción de Imágenes

MSc. Pablo Fonseca, PUCP y UPC, Perú

Resumen:

En esta charla discutiremos algunas ideas de las redes GAN para la traducción de imágenes, en particular: Pix2Pix y CycleGAN

Generative models for unsupervised detection in medical images

MSc student. Laura Jovani Estacio Cerquin, Universidad Católica San Pablo, Perú

Resumen:

Los modelos generativos han alcanzado un alto interés por parte de investigadores gracias a su capacidad de generalizar la información comprendida en los datos. A partir de esta generalización son capaces de reproducir imágenes realistas y que siguen la distribución original de los datos. Por lo tanto, estos modelos han abierto una posible solución a problemas relacionados al campo médico, ofreciendo aplicaciones como: generación de imágenes sintéticas, detección y segmentación semiautomática y automática.

Improving Self-supervised Depth Estimation with Feature Sharing and Depth Consistency

Phd student. Julio Cesar Mendoza Bobadilla, Universidad Estadual de Campinas, Brasil

Resumen:

In this work, we propose a self-supervised approach to depth estimation. Our method uses depth consistency to generate soft visibility mask that reduces the error contribution of inconsistent regions produced by occlusions. In addition, we allow the pose network to take advantage of the depth network representations to produce more accurate results. The experiments are conducted on the KITTI 2015 dataset. We analyze the effect of each component in the performance of the model and demonstrate that the consistency constraint and feature sharing can effectively improve our results. We show that our method is competitive when compared to the state of the art.

Automatic Gun Detection using Fast-RCNN on extreme illumination condition

MSc. Rolando Jesús Cárdenas Talavera, Universidad Nacional de San Agustín, Perú

Resumen:

The use of Deep Learning networks in classification and detection have been widely used. In this work we focus on the detection of guns using the Fast-RCNN model with the Edge Boxes technique in images with extremely illumination changes without the use of any illumination normalization techniques. For this, images extracted from Internet Movie Firearm Dataset~(IMFDb) were used. These images were selected according to the extreme illumination (very dark or very clear images) where the guns are difficult to detect or located. The obtained results show that despite the robustness of Deep Learning, detecting guns in these scenarios turns out to be a very difficult task

Detección Automática Personalizada de la Intensidad del Dolor de Expresiones Faciales en Vídeo usando Aprendizaje Profundo y Modelos Gráficos Probabilísticos

MSc student. Jefferson Quispe Pinares, Universidad Católica San Pablo, Perú

Resumen:

Los avances recientes en el campo del aprendizaje profundo han logrado resultados impresionantes en varias tareas complejas como la visión por computadora. El dolor es personal, subjetivo y es una experiencia que se evalúa comúnmente a través de Escalas Analógicas Visuales (VAS). Mientras esto es a menudo conveniente y útil, La Intensidad de Dolor de Prkachin y Solomon (PSPI) ha sido la medida que más tiempo ha sido investigado. Proponemos una enfoque nuevo de aprendizaje para la estimación de VAS usando PSPI. Primero, realizamos un preprocesamiento usando los puntos de referencia para obtener imágenes deformadas, luego calculamos PSPI usando técnicas Deep Features y Sequence Models, finalmente, estimamos la puntuación VAS personalizado bajo una heurística con Hidden Conditional Random Field(HCRF) proporcionado por cada persona.

Viernes 10 de Enero

Sistema Adaptativo para la Detección de Somnolencia en Conductores de Transporte

MSc. Vicente Machaca Arceda, Universidad Tecnológica del Perú

Resumen:

Se presenta un método para la detección de somnolencia en conductores a través de video utilizando Deep Learning.

Visualization for Machine Learning

Postdoctoral researcher. Aurea Soriano-Vargas, Universidad Estadual de Campinas, Brasil

Resumen:

Visualizando la salida de los modelos de aprendizaje de máquina es una excelente forma de ver cómo se comporta por ejemplo una red neural grande. Actualmente, la mayoría de personas que entrenan redes profundas están más centradas en el error de entrenamiento y el error de validación (accuracy). Sin embargo, estas métricas junto a visualización nos pueden dar una idea real de cómo nuestra red se está comportando en cada época. Además cuando tenemos redes profundas como Inception, nós permitiría aprender sobre la arquitectura de nuestra red.

Interpretability Machine Learning

MSc student. Felipe Adrian Moreno Vera, Universidad Católica San Pablo, Perú

Resumen:

Explicar acerca de cómo se pueden entender los modelos de deep learning (CNNs).

Aging Memories Generate More Fluent Dialogue Responses with Memory Networks

Senior Research Manager. Omar U. Flores, Capital One

Resumen:

Integration of Knowledge Bases (KBs) into a neural dialogue agent is key challenge in Conversational AI.

Key Value Memory Networks [Kaiser et al., 2017] has proven to be effective to encode KB information to thus generate more fluent and informed responses.

Unfortunately, Memory Networks generate many redundant latent vectors during training resulting in overfitting and the need for larger external memories .

3D Point Cloud Matching

MSc student. Roxana Candy Soto Barrera, Universidad Católica San Pablo, Perú

Resumen:

La correspondencia entre escenas 3D es un tema muy debatido en el área de Visión por Computador, los descriptores se utilizan para encontrar estos. Recientemente, se está introduciendo las Redes Neuronales a muchas tareas de Visión por Computador reemplazando algunos enfoques basados en características manuales como la detección de objetos y la clasificación, sin embargo para las tareas como la estructura del movimiento a ́un dependen de características puramente diseñadas,. La mayor diferencia entre todos los metodos y modelos son el costo computacional, la precision y la invarianza a factores debido a la iluminacion y transformaciones geometricas. En la actualidad no existe un modelo de bajo costo computacional que aprenda a identificar un correcto punto clave y aprenda a decidir si dos puntos claves coinciden. En esta trabajo se propone un modelo que aprende a identificar un buen punto clave y aprende a decidir si dos de estos coinciden partiendo de dos nubes de puntos obtenidas generadas del conjunto de datos Matching 3D.

Invariancia Perceptual

Postdoctoral researcher. Arturo Deza, Harvard University, USA

Resumen:

En esta charla compartiré un tema reciente de interés entre las areas de Deep Learning y Percepción Visual que se llama 'Foveation', que consiste en simular y entender los procesos neuronales que simulan la resolución variable del campo visual humano. Posiblemente la misma estrategia sea necesaria implementarla en computadoras para las siguientes generaciones de modelos de Deep Learning que puedan alcanzar un nuevo tipo de invarianza que es la perceptual.