El rol de la Ciencia de Datos y la Inteligencia Artificial en nuestra sociedad, cada vez cubre más aspectos de nuestra vida, condicionando nuestras decisiones, dirigiendo nuestras acciones y saturándonos con la información que genera, produciendo desinformación. Los efectos más visibles son la gran cantidad de noticias engañosas o directamente falsas. Estas tecnologías permiten una cantidad mucho mayor y con una propagación ampliamente superior a la que se podría generar con autores humanos únicamente.
Además de la desinformación, los modelos de aprendizaje automático y los sistemas basados en datos se utilizan cada vez más para asistir al proceso de toma de decisiones en aplicaciones cruciales como detección temprana de enfermedades, privación de libertad, préstamos, contrataciones y admisiones a universidades, entre otros. En este tipo de aplicaciones es crucial que un sistema automático pueda explicar las razones en las que se basa su recomendación para que la persona a cargo pueda razonar explícitamente y fundamentar su toma de decisiones. La ética de los datos cubre muchos temas urgentes, no es un problema del futuro, estos temas hoy están causando daño a personas reales.
El objetivo de este curso es familiarizar a los estudiantes con los conceptos de equidad (fairness) en modelos de data science y responsabilidad (accountability) en sistemas basados en aprendizaje automático. Y además desarrollar habilidades para investigar cómo los datos y los algoritmos basados en datos dan forma, restringen y manipulan nuestras experiencias comerciales, ciudadanas y personales. Se presentarán herramientas prácticas para la detección de riesgos éticos en modelos. Se verán ejemplos concretos de riesgos éticos en modelos automáticos para generación de lenguaje natural y de sesgo en word embeddings. Se trabajarán estrategias para la implementación de soluciones para mitigar estos riesgos e implementar políticas socialmente justas.
¿Qué es la ética en Ciencia de Datos?
¿Por qué los sesgos pueden ser dañinos?
Ética como una construcción cultural, ética no occidental.
Descripción de casos donde los sesgos de los modelos resultan dañinos
género: diagnóstico por imágenes, recruiting
responsabilidad por los resultados, no impunidad por oscurantismo algorítmico
Los datos no son inocentes:
inspección
responsabilidad compartida en la creación de datasets:
el rol del creador y del consumidor (data scientist) del dataset
data statements
Casos prácticos: modelos generativos de lenguaje y word embeddings
análisis de casos
herramientas disponibles para el diagnóstico
diseño de estrategias de mitigación
97 Things About Ethics Everyone in Data Science Should Know. Edited by Bill Franks. Capítulos escritos por Rachel Thomas, Cassie Kozyrkov y muchos otros. Muestra gratis en Google Books.
Manuel Velasquez et al, “What is ethics?”
Lydia Emmanouilidou, What can AI learn from non-Western philosophies?
Renee DiResta, Mediating Consent
Will Oremus, The Simplest Way to Spot Coronavirus Misinformation
Guillaume Chaslot, How Algorithms Can Learn to Discredit the Media
Arvind Narayan, 21 Definitions of Fairness
Timnit Gebru et al, Datasheets for Datasets
Emily Bender et al, Data Statements for Natural Language Processing
Harini Suresh and John Guttag, A Framework for Understanding Unintended Consequences of Machine Learning
Samir Passi and Solon Barocas, Problem Formulation and Fairness
Rachel Thomas, Practical Data Ethics
8 horas sincrónicas + 4 de apoyo
Entrega y aprobación de 2 trabajos prácticos.