Objetivos

El objetivo general (GO) del proyecto TOPAI es desarrollar nuevas metodologías y algoritmos con el fin de hacer de los Modelos Gráficos Probabilísticos (PGMs) una herramienta general para una IA confiable. Específicamente, abordando cuestiones fundamentales como la falta de transparencia, el requerimiento de datos, la medición de la incertidumbre y la robustez de los modelos. Paralelamente, se realizarán avances en el (i) modelado, (ii) inferencia y (iii) aprendizaje combinando PGMs Bayesianos y Modelos Causales Estructurales (SCMs) (Pearl,2009) 

OBJETIVOS ESPECÍFICOS

SO1: Mejora de la capacidad de medición y la explicabilidad de los PGMs, con el objetivo de hacerlos más adecuados para conseguir una IA confiable.

 SO2: Desarrollo de algoritmos de inferencia eficientes, capaces de lidiar con un gran número de peticiones (incluyendo peticiones causales) en poco tiempo y hacer predicciones de datos que llegan continuamente, proporcionando, además, una estimación de la incertidumbre en la predicción.

SO3: Desarrollo de nuevos algoritmos y metodologías de aprendizaje, que involucren tanto la estructura como los parámetros de los PGMs, capaces de calibrar la incertidumbre en el modelo y las metodologías aprendidas.

SO4: Aplicaciones, en las cuales el avance metodológico será validado y, al mismo tiempo, será útil para mostrar el impacto potencial de los resultados.

PLAN DE TRABAJO

El plan de trabajo está organizado en 4 paquetes de trabajo (WP1-4), que se corresponden con los 4 objetivos específicos (SO1-SO4),  y 2 WPs centrados en la gestión (WP0) y la divulgación (WP5).

WP0: Gestión del proyecto.

Responsable: Antonio Salmerón.

Tarea 0.1. Gestión del proyecto. Comprende la administración y organización de actividades, la monitorización y gestión del riesgo, la creación y mantenimiento de las herramientas colaborativas y la organización de las reuniones de proyecto y la escuela de verano.
Participantes: A. Salmerón, R. Rumí, A. Cano, J.M. Fernández, J.A. Gámez, J.M. Puerta.

Tarea 0.2. Gestión de los datos. Consiste en actualizar e implementar el plan de gestión de datos.
Participantes: J.M. Fernández, A. Salmerón, R. Rumí, A. Cano, J.A. Gámez, J.M. Puerta.

Resultados esperados:
Reporte del proyecto y el plan de gestión de datos.

WP1: Modelización (SO1)

Responsable: Antonio Salmerón

Tarea 1.1. Reparametrización y análisis de la sensibilidad en redes Bayesianas híbridas. Desarrollo de nuevos métodos de estimación capaces de lidiar con datos incompletos o ausentes definiendo un algoritmo parecido al EM basado en la reparametrización. Búsqueda de un esquema Bayesiano para los MoTBFs aprovechando dicha reparametrización, así como bases de funciones alternativas. Desarrollo de análisis de sensibilidad de los parámetros más importantes.
Participantes: A. Salmerón, R. Rumí, M. Morales, H. Langseth, T.D. Nielsen, S. Moral, A. González.

Tarea 1.2. Fusión de BN como operador de agregación. Búsqueda de una definición amplia de la fusión de BN que sirva para el razonamiento a posteriori y diseño de algoritmos que lo aproximen. Definición de la adaptación de estos algoritmos a los operadores de agregación correspondientes a los aprendizajes distribuido y federado de las BNs.
Participantes: J.M. Puerta, J.A. Gámez, J.A. Aledo, L. de la Ossa, P. Torrijos, J.M. Peña, M.Gómez.

Tarea 1.3. Modelización de generaciones anómalas. Analizar la definición de modelos de generación de datos anómalos, teniendo en cuenta la variabilidad en sus causas. Estudio del uso de probabilidades imprecisas para algunas situaciones en las que hay escasez de datos en relación a la complejidad del modelo. Extensión de los modelos de detección de anomalías para el uso de datos temporales.
Participantes: A. Cano, M. Gómez, S. Moral, P. Shenoy, A. Antonucci, Investigador contratado UGR, L. de la Ossa.

Resultados esperados:
Modelos más detallados y versátiles que den lugar a inferencias y algoritmos de aprendizaje más eficientes.

WP2: Inferencia (SO2)

Responsable: Andrés Cano

Tarea 2.1. Análisis causal y explicabilidad en PGMs. Búsqueda de métodos para resolver consultas causales sin necesidad de discretizar datos usando modelos MoTBF y la reparametrización de la tarea 1.1. Por otra parte, se aborda el problema de generar explicaciones post-hoc a modelos complejos usando PGMs.
Participantes: A. Salmerón, M. Gómez, A. Cano, J.A. Gámez, J.M. Puerta, J.A. Aledo, G.T. Fernández, J.M. Peña, A.D. Maldonado, D. Ramos, Helge Langseth, T. Nielsen, A. González.

Tarea 2.2. Estructura de datos alternativa y algoritmos para una inferencia eficiente en PGMs. Desarrollo de una nueva estructura de datos híbrida entre árboles y tablas para conseguir una representación eficiente de los valores nulos y no nulos de la información cuantitativa (potenciales) de los PGMs, así como las operaciones básicas de marginalización, combinación y selección de ésta, junto con el algoritmo de inferencia resultante para el cálculo de probabilidades marginales y el problema MPE. Adicionalmente, se explorará el uso de algoritmos de paralelización para la inferencia en PGMs.
Participantes: M. Gómez, S. Moral, A. Cano, A. Antonucci, Investigador contratado UGR, A.Salmerón.

Tarea 2.3. Aplicaciones del algoritmo de satisfacibilidad a la inferencia de Modelos Gráficos. Aplicación del algoritmo fast SAT al problema de inferencias en BNs en los cuales hay una alta densidad de valores nulos en las tablas de probabilidad condicionada. Para ello, se adapta un algoritmo de Monte-carlo para la inferencia de BNs realizando una propagación rápida previa de valores 0-1 mediante nuestro algoritmo para SAT marginal y utilizar esta información para evitar muestras con peso 0. Además, se planea utilizar algoritmos SAT para resolver los principales problemas de Monte-Carlo aplicado a cadenas de Markov, así como para determinar los bloques del muestro de Gibbs por bloques.
Participantes: S. Moral, M. Gómez, A. Cano, P. Shenoy, Investigador contratado UGR, J.A. Gámez, D. Ramos.

Resultados esperados.
Algoritmos de inferencia eficientes que abarque redes Bayesianas híbridas, dotado de análisis causal y explicabilidad.

WP3: Aprendizaje (SO3)

Responsable: José A. Gámez

Tarea 3.1. Clasificación y regresión con PGMs. Usar MoTBFs para implementar distribuciones condicionadas en problemas de clasificación y regresión, desarrollando un algoritmo de aprendizaje específico que tengan en cuenta los problemas asociados al uso de estimaciones de los MoTBFs . Combinar el aprendizaje generativo y el discriminativo en BNCs para mejorar el aprendizaje privacy-preserving de estos modelos en diferentes contextos.
Participantes: R. Rumí, L. de Campos, M. Gómez, A. Cano, J.M. Puerta, M.J. Flores, P. Bermejo, P. Torrijos, A.M. Martínez, M. Morales, P. Aguilera, D. Ramos, H. Langseth, T. Nielsen, A. González.

Tarea 3.2. Aprendizaje en BNs usando aprendizaje reforzado. Utilizar el aprendizaje de BN para aproximar la utilidad de las redes candidatas que serán evaluadas durante de una búsqueda, y plantear el problema de aprendizaje en diferentes espacios de búsqueda.  A partir de estos algoritmos, diseñaremos nuevos enfoques en el contexto de Aprendizaje Federado (FL) que (1) proporcionen una capa adicional para garantizar la privacidad, y (2) nos permitan utilizar las propuestas de FL desarrollados para el Aprendizaje Profundo (DL).
Participantes: M.J. Flores, J.A. Gámez, J.M. Puerta, L. Jiménez, Investigador contratado UCLM, L. de Campos

Tarea 3.3. Agregaciones de rankings robustas y privadas. El objetivo es doble. En primer lugar,  proporcionar definiciones y algoritmos adicionales para RA en los que se considerarán dimensiones adicionales al problema de optimización y se evaluará la robustez del resultado obtenido. En segundo lugar, dado que la información sensible se expresa en muchas ocasiones en dominios preferidos, planeamos diseñar algoritmos enfocados en mantener la privacidad de los individuos (o grupos) modelando el problema de agregación como uno de aprendizaje federado.
Participantes: J.A. Aledo, J.A. Gámez, P. Bermejo, G.T. Fernández, A. Rosete, Investigador contratado UCLM, J. Huete

Tarea 3.4. Clasificación probabilística de etiquetas. Avanzar en el desarrollo de algoritmos para la clasificación probabilística de etiquetas (PLR) basados en PGMs, mediante el desarrollo de modelos basados en BNs sin restricciones, para modelar la interacción entre las variables predictivas y los nodos de preferencia agrupados por pares; por una parte. Y, por otra parte, considerar el modelo de Babington Smith, donde se induce una distribución de probabilidad sobre las clasificaciones a partir de un conjunto de comparaciones emparejadas arbitrariamente.
Participantes: J.A. Gámez, J.A. Aledo, A. Rosete, Investigador contratado UCLM, J. Huete, J.M. Fernández.

Tarea 3.5. Aprendizaje de modelos equitativos. Desarrollar algoritmos de aprendizaje que sean conscientes de los posibles sesgos contra ciertas subpoblaciones en los datos, que tengan en cuenta este hecho durante el aprendizaje para obtener modelos que sean robustos frente a dichos sesgos. Además, se planea generar modelos justos para la agregación de rankings y clasificación de etiquetas
Participantes: J.A. Gámez, J.M. Puerta, M.J. Flores, L. Jiménez, J.M. Peña, A. Salmerón.

Tarea 3.5. Combinación de características estilométricas y temáticas basadas en el contexto para la generación de modelos de lenguajes contextuales en la atribución de autorías. Desarrollo de modelos capaces de identificar la autoría de textos escritos, los cuales serán competitivos con el estado del arte actual, especialmente en lo que respecta al DL. El objetivo es diseñar y evaluar modelos para la atribución de la autoría que tomen en cuenta exclusivamente la información basada en el estilo del autor, considerando el conjunto de características afectadas por el contexto. Por lo tanto, se combinará el contexto, las características estilométricos y la temática para crear modelos más precisos para la identificación de la autoría.
Participantes: Juan F. Huete, Juan M. Fernández, L. de Campos, M. Gómez, S. Cleger, Investigador contratado UGR, P. Bermejo

Resultados esperados:
Algoritmos de aprendizaje para PGMs considerando aspectos relevantes como la equidad y la privacidad de los datos de los usuarios. Nuevos algoritmos para aprender BNs y BNCs de forma óptima. Algoritmos para la identificación del autor basados en características estilométricas, así como su combinación con temáticas basadas en el contenido. Un paquete de software con implementaciones eficientes de los algoritmos diseñados.

WP4: Aplicaciones (SO4)

Responsable: Juan Manuel Fernández Luna

Tarea 4.1. Monitoreo de la evolución del Posidonia Oceanica. Construir modelos capaces de caracterizar la relación entre el P. Oceanica y la variables ambientales del mar Mediterráneo en las costas andaluzas. Estos modelos serán utilizados para predecir cambios en la distribución espacial de la pradera marina bajo posibles escenarios de cambio climático, propuestos por el Panel Intergubernamental sobre el Cambio Climático.
Participantes: P. Aguilera, M. Morales, A.D. Maldonado, M.J. Flores, A. González.

Tarea 4.2. Diseño y validación de nuevos modelos de sistemas de recomendación basados en redes sociales y su hibridación con modelos basados en contenido. El objetivo es construir, utilizando técnicas generales de ML y, específicamente, las probabilísticas, modelos de recomendación de entidades a partir de la red social extraída de los datos. Además, un segundo paso será combinar redes sociales con el contenido obtenido de alguna de estas formas: integrando la información en un único sistema de recomendación, o combinando los resultados de las recomendaciones basadas en redes sociales con las basadas en contenido, explotando los temas subyacentes.
Participantes: J.M. Fernández, J. Huete, L. de Campos, A. Cano, M. Gómez, S. Cleger, Investigador contratado UGR, L. de la Ossa.

Tarea 4.3. Predicción de la demanda de energía de edificios. Basándonos en datos (públicos) que contienen, a nivel nacional y de cuadrícula (100m), características como demanda/consumo de energía, tipo de edificio, número de viviendas, área construida, etc., nuestro objetivo es diseñar un modelo predictivo del consumo de energía a nivel de edificio. El modelo estará basado en PGMs y, por lo tanto, permitirá cuantificar las relaciones entre las variables principales y la incertidumbre presente en las propias fuentes de datos.
Participantes: L. de la Ossa, J.M. Puerta, M.J. Flores, A.M. Martínez, Investigador contratado UCLM.

Resultados esperados:
Algoritmos y/o metodologías para obtener modelos predictivos y descriptivos que monitoricen la evolución del Posidonea oceanica y la energía consumida a nivel de edificio en la UE. Algoritmos para recomendaciones basadas en redes sociales, así como su combinación con sistemas de recomendación basados en contenido. Paquetes de software y/o pequeñas aplicaciones autónomas de soporte de decisiones para cada problema.

WP5: Diseminación

Responsable: Antonio Salmerón

Tarea 5.1. Comunicación de resultados en revistas y conferencias.
Participantes: Todos.

Tarea 5.2. Publicación de software.
Participantes: P. Bermejo, A. Salmerón, M. Gómez. Local members of the Work Teams. Investigadores contratados.

Tarea 5.3. Divulgación de resultados al público general. Incluye el desarrollo y mantenimiento de la web del proyecto.
Participantes: Todos.