blog

Clasificación de Imágenes [6 Abril 2020]

Existen muchas arquitecturas de redes neuronales (o neurales) para clasificar imágenes. Hay ya un registro del desempeño de diferentes modelos.

En Papers with Code se encuentra una sección sobre las redes que sirven mejor para distinguir la imágenes de la base de Imagenet.

De estas, la que actualmente va ganando es FixRes , usaron clusters de GPUs y también los pesos de otras redes de alto desempeño en clasificación de imágenes. Es decir el pre-entrenamiento incluye la información recolectada por la experiencia previa de otras redes. En el artículo que describe con detalle estos avances explican sus logros de mayor eficiencia usando menos parámetros. Partiendo de la red ResNeXt-101 , con estos cambios logran llegar al 98% de precisión.

Para las aplicaciones específicas a imágenes médicas, se han implementado varias versiones de la arquitectura U-Net. Una red muy interesante, que utiliza redes convolucionales de gráficas y redes CNN en 3D en conjunto se ha usado para separar venas de arterias en los pulmones , como se muestra en la figura.

Reseña IA 2019 [13 Enero 2020]

El año 2019 será recordado como un momento en el que la IA pasó de la fantasía a la realidad en la percepción del público. Hace doce meses, gran parte del mundo equiparó la tecnología con los sueños de Hollywood de The Terminator, Westworld y Ella. Hoy en día, mucha gente entiende la IA como una fuerza tangible en el mundo, y están teniendo una seria conversación sobre su impacto en la sociedad, la economía, la política y el equilibrio internacional de poder.

Los modelos de idiomas se alfabetizan

Los modelos lingüísticos anteriores, impulsados por la incorporación de Word2Vec y GloVe, produjeron confusos robots de conversación, herramientas gramaticales con comprensión de lectura en la escuela media y traducciones no tan malas. La última generación es tan buena que algunos la consideran peligrosa.

Lo que sucedió: Una nueva generación de modelos lingüísticos escribió noticias que los lectores calificaron de tan creíbles como el New York Times y contribuyeron a un artículo en el New Yorker. Afortunadamente, estos modelos no cumplieron con los temores de que desataran una oscura marea de desinformación.

Conduciendo la historia: En 2019, los investigadores dieron un salto en el rendimiento del lenguaje natural. Los nuevos modelos se vuelven generalmente competentes al preentrenar en un enorme conjunto de datos no etiquetados. Luego dominan una tarea o tema determinado a través de la puesta a punto en un corpus especializado.

Mientras que modelos anteriores como el ULMFiT (de Jeremy Howard y Sebastian Ruder) y el ELMo (del Instituto Allen para la IA y la Universidad de Washington) demostraron el potencial del preentrenamiento, el BERT de Google fue el primer éxito del método. Lanzado a finales de 2018, el BERT obtuvo una puntuación tan alta en el punto de referencia de comprensión de lectura de GLUE que, por primera vez, los organizadores de la prueba compararon el rendimiento del modelo con las puntuaciones de referencia humanas. En junio, un derivado de Microsoft llamado MT-DNN superó las puntuaciones humanas.

A mediados de febrero, OpenAI anunció el GPT-2, un modelo pre-entrenado que consideró demasiado peligroso para publicar debido a su capacidad de producir una prosa convincente generada por ordenador. Entrenado con 40 GB de comentarios de Reddit, no alimentó un apocalipsis de noticias falsas, pero contribuyó a una novela, letras de canciones vanguardistas y ficción de fans de Game of Thrones. La organización finalmente publicó el modelo completo en noviembre.

Entre tanto, un desfile de modelos de Baidu, Carnegie Mellon y Google Brain, Facebook y otros lugares encabezaron los puntos de referencia de la PNL. Muchos de ellos se basaron en la arquitectura de transformadores y aprovecharon la codificación bidireccional al estilo de BERT.

Detrás de las noticias: En julio de 2018 - meses antes de que el BERT saliera a la luz - el investigador de DeepMind Sebastian Ruder anticipó el impacto de la formación previa en el procesamiento del lenguaje natural. Además, predijo que los avances en PNL revolucionarían la IA en su conjunto. Basó su argumento en el efecto energizante de los modelos de visión pre-entrenados alrededor de 2012. Muchos en el campo trazan la explosión del aprendizaje profundo hasta este momento.

Donde están las cosas: A pesar de las innovaciones del año, los modelos de lenguaje todavía tienen espacio para crecer: Incluso los 1,5 billones de parámetros del GPT-2 a menudo escupen jerigonza. En cuanto a si los últimos modelos son capaces de perturbar la democracia con una potente desinformación: La temporada de elecciones en EE.UU. se acerca rápidamente.

La simulación sustituye a los datos

El futuro del aprendizaje de las máquinas puede depender menos de la acumulación de datos fidedignos sobre el terreno que dé la simulación del entorno en el que funcionará un modelo.

Lo que sucedió: El aprendizaje profundo funciona como magia con suficientes datos de alta calidad. Sin embargo, cuando los ejemplos son escasos, los investigadores utilizan la simulación para llenar el vacío.

Impulsando la historia: En el 2019, los modelos entrenados en ambientes simulados lograron hazañas más complejas y variadas que el trabajo previo en esa área. En el aprendizaje de refuerzo, el AlphaStar de DeepMind alcanzó el estatus de Gran Maestro en el complejo juego de estrategia StarCraft II - capaz de vencer al 99,8 por ciento de los jugadores humanos - a través de decenas de miles de años virtuales compitiendo en una liga virtual. OpenAI Five entrenó de forma similar un equipo de cinco redes neuronales a los mejores campeones mundiales de Dota 2. Pero esos modelos aprendieron en un mundo virtual a actuar en un mundo virtual. Otros investigadores transfirieron las habilidades aprendidas en las simulaciones al mundo real.

La mano robótica Dactyl de OpenAI pasó el equivalente simulado de 13.000 años en la realidad virtual desarrollando la destreza necesaria para manipular un rompecabezas del Cubo de Rubik. Luego aplicó esas habilidades a un cubo físico. Fue capaz de resolver el rompecabezas en un 60 por ciento de los intentos cuando para descifrar las caras de color se necesitaban 15 o menos giros del cubo. Su tasa de éxito cayó al 20 por ciento cuando resolver el rompecabezas requería más movimientos.

Los investigadores de CalTech entrenaron una red neural recurrente para diferenciar los terremotos superpuestos y simultáneos simulando las ondas sísmicas que se propagan a través de California y Japón y usando las simulaciones como datos de entrenamiento.

La unidad de vehículo autoconductor Aurora de Amazon ejecuta cientos de simulaciones en paralelo para entrenar a sus modelos a navegar en entornos urbanos. La compañía está entrenando de manera similar a las facultades de conversación, los drones de entrega y los robots de Alexa para sus centros de cumplimiento.

Donde están las cosas: Entornos de simulación como la IA Habitat de Facebook, la Behavior Suite for Reinforcement Learning de Google y el Gimnasio de OpenAI ofrecen recursos para dominar tareas como la optimización de las líneas de producción textil, el relleno de espacios en blanco en imágenes 3D y la detección de objetos en entornos ruidosos. En el horizonte, los modelos podrían explorar simulaciones moleculares para aprender a diseñar fármacos con los resultados deseados.

Coches autónomos siguen sin arrancar

Los fabricantes de automóviles autoconductores predijeron una rápida carrera hasta la meta, pero sus vehículos están lejos de la recta final.

Lo que sucedió: Hace unos años, algunas compañías de automóviles prometieron vehículos autónomos listos para la carretera ya en 2017. Sin embargo, en una conferencia del Wall Street Journal en enero, el CEO de Waymo, John Krafcik, reveló su creencia de que los vehículos autónomos probablemente nunca podrían conducir en todas las condiciones. Su comentario marcó la pauta para un año de reducción de la producción de automóviles.

Conduciendo la historia: Una confluencia de dificultades llevó a varias compañías de automóviles a aprovechar los frenos.

La conducción urbana presenta peligros tan diversos y los casos peligrosos son en comparación tan raros, que los ingenieros aún no han descubierto cómo construir modelos que los superen. Los vehículos que atraviesan rutas predecibles, como autobuses automatizados y camiones de carga de largo recorrido, probablemente serán los primeros en desplegarse.

El alto costo y la limitada disponibilidad de los sensores - particularmente del lidar - han obligado a las compañías a fabricar los propios o a reducir el número que utilizan en cada coche. Menos sensores significan menos datos para la formación y la percepción.

GM Cruise y Tesla pospusieron sus plazos para el taxi autónomo hasta el 2020. La ciudad de Phoenix dio permiso a Waymo y Lyft para operar taxis autónomos en 2018, pero el servicio sólo está disponible para un área limitada y un pequeño número de usuarios. En noviembre, Waymo cerró sus instalaciones de investigación de autoconducción en Austin.

Detrás de las noticias: Las ciudades en China están experimentando con un enfoque diferente. En lugar de entrenar vehículos autónomos para navegar por los entornos urbanos existentes, están modernizando las ciudades para facilitar la tecnología. Entre sus características se incluyen los sensores de carretera que pasan a lo largo de las señales de navegación, como los cambios de carril y los límites de velocidad.

Donde están las cosas: Los fabricantes de automóviles tradicionales se están centrando en características de conducción asistida como la Asistencia al Conductor de Ford y la Asistencia al Estacionamiento de Mercedes. Mientras tanto, Waymo sigue trabajando en vehículos totalmente autónomos, y compañías más pequeñas como May Mobility y Voyage están desplegando una total autonomía en escenarios limitados que pretenden ampliar con el tiempo. Paralelamente, empresas como TuSimple, Embark y Starsky se están concentrando en el transporte interestatal totalmente autónomo.

Deepfakes se propagan

La sociedad despertó al placer, la amenaza y la pura rareza de las imágenes realistas y otros medios soñados por las computadoras.

Lo que sucedió: Las llamadas falsificaciones se volvieron más convincentes y fáciles de hacer, alimentando una oleada de fascinación y ansiedad que muestra cada signo de intensificarse en el próximo año.

Conduciendo la historia: Hace dos años, la mayoría de las falsificaciones estaban pixeladas y eran difíciles de hacer. Ahora son más astutas que nunca y están mejorando con un rápido clip.

A finales de 2018 aparecieron modelos destacados como BigGAN, que crea imágenes de las clases que se encuentran en ImageNet, y StyleGAN, que genera variaciones como poses, peinados y ropa. A principios de 2019, los investigadores también desarrollaron una red que crea modelos realistas de cabeza hablante a partir de una sola foto, lo que plantea la cuestión de si la gente realmente dijo las cosas que usted les vio decir.

La tecnología encontró usos positivos, como hacer que la estrella de fútbol inglés David Beckham parezca transmitir un mensaje contra la malaria en nueve idiomas. El gigante tecnológico chino Momo lanzó Zao, una aplicación que mapea los rostros de los usuarios sobre los personajes de escenas de películas populares.

Sin embargo, las falsificaciones también mostraron su lado oscuro. Los estafadores estafaron a una empresa energética del Reino Unido por cientos de miles de dólares usando un audio falso de la voz del director general. La tecnología estaba implicada en escándalos políticos en Malasia y Gabón.

Un informe de Deeptrace Labs, que vende software de detección de fraudes graves, encontró que el 96 por ciento de los videos de fraudes graves en línea eran pornográficos no consentidos - en su mayoría rostros de celebridades femeninas mostrados en cuerpos desnudos generados por computadora.

La reacción: Facebook, acosado por un video falso del CEO Mark Zuckerberg que parece regodearse en su poder sobre los miembros de la red social, anunció un concurso de 10 millones de dólares para automatizar la detección de fraudes graves. Mientras tanto, China promulgó restricciones a la difusión de medios falsificados. En Estados Unidos, el estado de California aprobó una ley similar, mientras que la Cámara de Representantes considera una legislación nacional contra la falsificación.

En la actualidad, la situación es la siguiente: La detección y el control de las falsificaciones se está convirtiendo en un juego de alta tecnología del gato y el ratón. Aunque las falsificaciones de hoy tienen características reveladoras, dentro de un año serán indistinguibles de las imágenes reales, según el profesor de informática de la USC Hao Li.

El reconocimiento de rostros encuentra resistencia

Una ola internacional de sentimiento anti-vigilancia hizo retroceder la proliferación de los sistemas de reconocimiento facial.

Lo que sucedió: Grupos de activistas y de vigilancia en Estados Unidos y Europa, alarmados por el potencial de la tecnología para infringir las libertades civiles, impulsaron la legislación que restringía su uso. Sus esfuerzos crearon un impulso hacia la prohibición nacional de los usos públicos y privados de la tecnología.

Impulsando la historia: Varias ciudades de Estados Unidos aprobaron leyes contra el reconocimiento facial mientras el gobierno federal reflexionaba sobre el tema. La Unión Europea está trabajando en sus propias restricciones.

En mayo, San Francisco se convirtió en la primera ciudad estadounidense en prohibir el reconocimiento del rostro por parte de la policía y otros funcionarios del gobierno, seguida por el suburbio de Somerville en Boston, Massachusetts. En los meses siguientes, los vecinos de San Francisco, Oakland y Berkeley, aprobaron leyes similares. Estas leyes fueron encabezadas por la Unión Americana de Libertades Civiles, que tiene como objetivo crear un impulso para la legislación nacional.

En Washington, los miembros del Congreso de Estados Unidos interrogaron al Departamento de Seguridad Nacional sobre el plan de la agencia de utilizar la tecnología en los aeropuertos y en la frontera. Los legisladores, tanto en el Senado como en la Cámara de Representantes, han presentado al menos una docena de proyectos de ley -muchos con apoyo bipartidista- que buscan restringir los usos del reconocimiento facial para suprimir las libertades, negar la vivienda y generar ganancias, entre otras cosas.

Los perros guardianes europeos presionan para clasificar las imágenes de rostros como datos biométricos sujetos a las regulaciones de privacidad existentes. La Comisión Europea está considerando una legislación que apunta al "uso indiscriminado" del reconocimiento facial por parte de organizaciones privadas y agencias públicas. No obstante, Francia preparó en octubre un programa nacional de identificación basado en esta tecnología.

El uso del reconocimiento facial por parte de China provocó la oposición en los Estados Unidos, donde las autoridades comerciales federales prohibieron las exportaciones de tecnología estadounidense a varias empresas chinas.

Detrás de las noticias: En 2016, la Administración Nacional de Telecomunicaciones e Información de EE.UU. publicó unas directrices sobre el reconocimiento facial en las que se pedía a las empresas que fueran transparentes, practicaran una buena gestión de los datos y permitieran al público cierto control sobre el intercambio de datos faciales con terceros. Aunque los principales proveedores de la tecnología son miembros de la NTIA, no está claro si siguen estas directrices.

En la situación actual: En junio, el director general del Servicio Web de Amazon, Andy Jassy, dijo a Recode, "Me gustaría que [el Congreso] se diera prisa... . . . De lo contrario, tendrá 50 leyes diferentes en 50 estados diferentes". Puede que también haya hablado por la industria tecnológica en su conjunto: Sin límites legales, las compañías se quedan adivinando hasta dónde pueden empujar la tecnología antes de violar la confianza del público - arriesgándose a un revés si se pasan de la raya.

13-Enero-2020