Agrupamiento (Clustering): En general, un agrupamiento es un conjunto de objetos de datos. En un entorno de inteligencia artificial, el término se refiere al resultado de aplicar un algoritmo de aprendizaje no supervisado en el que esperamos que el modelo divida el dataset en una serie de categorías diferenciadas por compartir una serie de propiedades relevantes. Ello se hace analizando las diferentes propiedades de los diferentes elementos del dataset y agrupando aquellos que estadísticamente resultan más similares. Una aplicación típica de este proceso es tomar una serie de individuos, registrar las preferencias que han expresado en una plataforma digital (una red social, un espacio para ver películas y series de televisión,etc.) y luego segmentar esos grupos por afinidad y así poderles recomendar contenidos que se adapten a sus gustos e intereses. Una vez establecidos los diferentes agrupamientos, un equipo humano puede revisar esas agrupaciones y etiquetarlas a posteriori buscando si las propiedades comunes descubiertas por el algoritmo responden a algún conjunto con sentido. Por ejemplo, una vez hemos aplicado un algoritmo de aprendizaje no supervisado a un conjunto de datos sobre preferencias cinéfilas de centenares de miles de usuarios, puede surgir un agrupamiento de aficionados a las películas de terror y el algoritmo puede ayudarnos a establecer qué películas de terror han recibido una mayor puntuación por parte de los usuarios de este conjunto.
Algoritmo: Entenderemos por algoritmo cualquier conjunto de instrucciones precisas y sin ambigüedad que deben seguirse en el orden manifiesto para llevar a cabo una tarea específica. Puesto que la precisión y la no ambigüedad son centrales a la hora de plantear un algoritmo, este se expresa normalmente en un lenguaje formal, matemático, para evitar confusiones. En un sentido teórico estricto, un algoritmo es una representación abstracta de una forma específica de llevar a cabo una tarea formal. Luego ese algoritmo puede implementarse en diferentes dispositivos con programas específicos. Así, la serie de instrucciones que aprendimos en la escuela primaria para multiplicar dos números es un algoritmo, y ese algoritmo lo puede implementar una persona en su cabeza haciendo los cálculos, otra persona ponerlo en acción con papel y lápiz y una calculadora usando los circuitos lógicos para procesar los números convertidos en bits.
Análisis de datos (Data analysis): Entendemos por análisis de datos la disciplina que busca obtener conocimiento de un conjunto de datos y aplicar ese conocimiento para resolver un problema. Contra la idea de un proceso automático de meter los datos, pasarle un algoritmo y que la respuesta aparezca mágicamente, el análisis de datos requiere de una serie de pasos diferenciados para llegar del dato en bruto al conocimiento aplicable. En cada uno de esos pasos pueden cometerse errores o incluir sesgos que pueden hacer que nuestro supuesto conocimiento en realidad no sea fiable.En primer lugar necesitamos recopilar esos datos, que pueden provenir de diversas fuentes, desde encuestas rellenadas por usuarios a datos recopilados por sensores, pasando por páginas web, bases de datos ofrecidas por terceros, etc.Inevitablemente, esos datos contendrán errores, outliers, falta de entradas en algún registro, etc. con lo que viene la siguiente fase que es limpiar esos datos para eliminar las posibles fuentes de errores.Una vez tenemos unos datos mínimamente fiables necesitamos elegir el algoritmo más adecuado para procesarlos. Ello vendrá dado parcialmente por los datos que tenemos y por el objetivo que queremos conseguir. Decidir el algoritmo y proceso más adecuado no es una tarea automática, y tiene tanto de ciencia como de arte.Seguidamente aplicamos el algoritmo para darle sentido a nuestros datos. Véase la entrada “aprendizaje automático” para más detalles sobre este proceso.Una vez hemos construido un modelo de cómo se comportan nuestros datos pasamos a una fase de comprobación para asegurarnos de que el modelo funciona como queremos. Es un proceso en bucle, que seguramente nos hará revisar la base de datos para eliminar posibles errores, una remodelación del algoritmo, etc.Una vez tenemos un modelo que nos convence lo implementamos en algún tipo de aplicación que nos genere el conocimiento deseado. Ese conocimiento puede a su vez cruzarse con resultados de otros procesos de análisis de datos para tomar una decisión médica, de negocios, científica, etc.
Aprendizaje automático (Machine learning): Bajo el término de aprendizaje automático se recogen todos aquellos algoritmos que intentan establecer generaciones estadísticas a partir de datos obtenidos de interacciones con el mundo real, sin la necesidad de que el algoritmo esté desarrollado explícitamente por un programador. Una vez el algoritmo ha establecido esas correlaciones, el modelo generado puede usarse para clasificar una serie de datos en diferentes categorías hacer predicciones sobre el comportamiento futuro de un sistema o generar nuevos datos a partir de lo recopilado previamente.
Aprendizaje automático No supervisado:El aprendizaje no supervisado está basado en que el propio sistema de manera autónoma detecte y reconozca patrones existentes en los datos (correlaciones estadísticas). Una técnica frecuente es el agrupamiento (clustering) en la cual se generan un conjunto de agrupamientos mediante la minimización o maximización de algún criterio de optimización. Por ejemplo, mediante el aprendizaje no supervisado, a partir de bases de datos de marketing, una empresa puede realizar una clasificación de sus clientes en distintos segmentos. Aquí debemos hacer hincapié en que es el propio sistema el que “descubre” los patrones subyacentes en los datos y a partir de ellos define los diferentes grupos. Los programadores especifican la cantidad de segmentos a obtener, pero no su naturaleza o contenido.
Aprendizaje automático Supervisado:En el aprendizaje supervisado, los programadores de un sistema lo entrenan definiendo una serie de resultados de salida esperados para una gama de datos de entrada, que son etiquetados (labeled) por el equipo de desarrollo. Una vez entrenado un modelo, el sistema es capaz de asignar una etiqueta de salida a un nuevo valor. Los usuarios o programadores del sistema pueden seguir entrenando el modelo con el propio uso, especificando al sistema si la etiqueta asignada es correcta. Por ejemplo, una app de reconocimiento de pájaros puede ser entrenada con enormes cantidades de fotos de pájaros etiquetadas con sus respectivos nombres genéricos (colibrí, ruiseñor, etc.). Una vez entrenado en modelo predictor, la app será capaz de asignar una etiqueta a una nueva imagen capturada por la app. Si la app ofrece una respuesta incorrecta (por ejemplo, etiquetando como “ruiseñor” a una “gaviota”), el usuario puede alertar de este error al sistema, que se retroalimentará a partir del error y ajustará sus hipótesis predictivas futuras.
Aprendizaje profundo (Deep learning):Es una subdisciplina del aprendizaje automático basada en arquitecturas consistentes en múltiples capas de redes neuronales.
Análisis de la regresión (Regression analysis): El análisis de regresión es una técnica estadística que permite establecer una relación matemática entre una serie de variables independientes y una dependiente, con el objetivo de poder predecir la variable dependiente a partir de los valores de las variables dependientes. Un ejemplo típico es predecir el precio de una casa (variable dependiente) a partir de las características de ésta: metros cuadrados, número de habitaciones, barrio en el que se encuentra, si tiene o no garaje, etc.Matemáticamente, un análisis de regresión intenta encontrar una expresión lineal que defina una línea recta que intenta acomodar de la mejor manera posible el mayor número de instancias de la variable dependiente. Para hacer un análisis de la regresión necesitamos convertir todas las variables dependientes e independientes en valores numéricos.
Árbol de decisión (Decision tree): En el contexto del aprendizaje automático un árbol de decisión es un tipo de algoritmo que divide un conjunto de datos en una serie de paquetes para establecer la respuesta a algún problema. En el desarrollo del algoritmo indicamos cuál es el número final de paquetes diferenciados que buscamos y el algoritmo procede a dividir la base de datos en una serie de elecciones, generando un árbol de decisión que establece una serie de criterios para ir dividiendo esa base de datos en paquetes discretos hasta tener los conjuntos finales deseados.La función básica de este tipo de algoritmo es conseguir clasificar los diferentes registros en nuestra base de datos en una serie de conjuntos discretos organizados según una serie de criterios.Supongamos que tenemos una base de datos de películas, con cada registro que compila información sobre cada una de las películas; duración, nombre del director, actor y actrices principales, número total de espectadores,año de lanzamiento, etc. Queremos organizar estas películas por su similaridad, para así recomendarlas a usuarios de un servicio de streaming: si te gustó tal y tal película, hay una probabilidad muy alta de que te guste tal otra. Un árbol de decisión nos generará precisamente eso, irá dividiendo el conjunto total de películas en diversos paquetes, siguiendo la estructura de un árbol invertido hasta llegar al número de conjuntos deseado.Puesto que es un algoritmo que va haciendo divisiones sucesivas del conjunto total es un proceso que es relativamente explicable: un humano puede seguir las subdivisiones que ha hecho el algoritmo y explicarlas para que otra persona que lo vaya a usar entienda las razones de la agrupación. Por ejemplo,en un primer paso, el algoritmo puede dividir el conjunto de películas en cuatro grandes paquetes, para todos los públicos, para mayores de 7 años, para mayores de 12 años y para mayores de 16 años. Una vez ha hecho esta subdivisión, puede tomar cada uno de esos conjuntos y dividirlos en director con solo una película, director con un máximo de 3 películas, director con más de 3 películas, etc.
Atributo:Equivalente a propiedad. Cuando trabajamos con personas refiere a propiedades concretas de esos individuos recopilados en la base. Cuando un atributo asociado a personas puede ser generador de sesgos o va asociado a derechos fundamentales de una persona, hablamos de “atributo sensible”.
B
Big Data: Técnicamente, el termino big data refiere a una cantidad enorme de datos, normalmente proviviniente de diversas fuentes y que no cabe en un unico disco duro y necesita por tanto distribuirse en diversos dispositivos.A nivel practico y aplicado, nos encontramos en un caso de big data cuando la cantidad y diversa procedencia de los datos es tal que un analisis clasico de esa informacion no es posibley es necesario utilizar algoritmos especializados para obtener informacion y conocimiento de esos datos.
Biometría:Reconocimiento o autenticación de una persona en base a características físicas (cara, huella dactilar, iris) y/o de comportamiento (andar, gestos, tecleo).
C
Caja negra:Un modelo de caja negra es un sistema cuyos mecanismos internos se desconocen. El sistema recibe una entrada y genera una salida, pero no hay explicación de cómo el sistema ha llegado a asociar esa entrada con una salida concreta. En el contexto del aprendizaje automático, "caja negra" se refiere a un modelo que no se puede entender a partir de sus parámetros: entran datos y salen decisiones, recomendaciones o predicciones, pero es muy complejo o directamente imposible establecer cuáles fueron las características concretas de los datos que colaboraron para establecer la salida y de qué manera se hio la asociación. Este es manifiesto en el caso de los modelos de redes neuronales, donde los datos de entrada pueden pasar por muchas transformaciones en las múltiples capas de la red neuronal o donde los modelos complejos pueden comportarse de formas impredecibles. Un modelo de caja negra no nos puede ofrecer explicabilidad, el porqué de la decisión, aunque la explicabilidad está considerada central a la hora de utilizar sistemas informáticos “inteligentes” para tomar decisiones que afecten al bienestar de los seres humanos.
Chatbot:Un chatbot es un programa informático diseñado para imitar una interacción humana en una conversación basada en texto. En medicina pueden usarse para que el paciente explique sus síntomas y ayudar a un sistema de diagnóstico automático y también puede servir para que un sistema informático dé explicaciones de cómo funciona el algoritmo y por qué ha tomado una decisión concreta.Los chatbots pueden ser simplemente buscadores de palabras clave que generan respuestas preprogramadas -por ejemplo un chatbot para pedir hora al médico- o pueden tener cierta comprensión del lenguaje humano como para poder seguir mínimamente una conversación.Como cualquier otro programa informático, un chatbot puede ofrecer un comportamiento sesgado y discriminatorio hacia sus usuarios, en función de qué algoritmo se usó para programarlo, cuál es su base de datos, etc.
Clase:Un conjunto de instancias que se agrupan en un mismo conjunto en base a uno o más elementos comunes (discriminantes).
Clasificación: Asignación de una instancia a una clase o a un grupo de clases.
D
Dataset (Conjunto de datos): Amplio término para referirse a una colección de datos que se han compilado juntos para ser analizados. A este conjunto de datos se le supone una unidad en el tipo de registro y en los atributos que definen cada elemento del conjunto. Un dataset puede ser muy específico, como por ejemplo registro de pisos en alquiler en la ciudad de Barcelona, caras de actores famosos para generar una GAN que genere falsas caras de celebridades o más abstracto como dataset de todo tipo de imágenes para entrenar a un sistema de reconocimiento visual automático.
Deep Learning (Aprendizaje profundo): El deep learning es un subconjunto de algoritmos de aprendizaje automático basados en redes neuronales que utilizan numerosas capas, y cada capa proporciona una interpretación de los datos de los que se alimenta. Las múltiples capas se utilizan para progresivamenteextraer características de nivel superior de los datos de entrada. La idea es generalizar las capacidades de una red neuronal, donde cada capa realiza una tarea un poco más abstracta que la anterior.Veamos un ejemplo: una red neuronal de deep learning para reconocer lo que aparece en una fotografía empieza por establecer unadescripción muy básica de la imagen que procesa, básicamente detectando bordes entre siluetas. Esos bordes que ha generado la primera capa son generados por una segunda capa que puede, por ejemplo, delimitar zonas: Otra capa separará los diferentes objetos que aparecen en la fotografía. Una siguiente capa puede procesar el color, otra reconocer rasgos humanos, otra más reconocer letras, etc. Un sistema de deep learning requiere de máquinas con una gran capacidad de computación y consumen una cantidad considerable de energía.Es importante recordar que “detectar bordes” o “reconocer rasgos humanos” es la forma en que describimos nosotros el tipo de información que estamos procesando. Una red neuronal no reconoce nada de eso, sino que se limita a establecer similaridades estadísticamente relevantes entre conjuntos de pixeles de forma abstracta.
Discriminante:Las condiciones bajo las cuales una instancia se agrupa con otra para formar una clase (y se convierte en un elemento de esa clase). A su vez, el discriminante separa una instancia de otras instancias pertenecientes a otras clases.
E
Equidad contrafáctica: Se trata de una métrica que compara dos individuos para establecer si el algoritmo está libre de sesgos. Esta métrica toma dos individuos que sean prácticamente iguales, exceptuando una divergencia en uno o unos pocos atributos sensibles y observa si las predicciones que hace para esos individuos son similares o hay una diferencia significativa Por ejemplo, si un algoritmo asigna una probabilidad sensiblemente mayor de ser la persona adecuada para un puesto directivo a un hombre y una mujer cuyos CVs son por lo demás prácticamente idénticos, diremos que el algoritmo no ha pasado el test de la métrica de la equidad contrafáctica.
Explicabilidad (Explainability): Especialmente relevante a la hora de entender qué ha aprendido un modelo durante un proceso de entrenamiento/aprendizaje. Este entendimiento sirve para validar las inferencias y el proceso que las genera. Tiene una dimensión funcional y técnica pero también una ético-normativa.Se suele hacer referencia a IA explicable (Explainable AI) cuando el sistema es capaz de explicar o dar suficientes elementos de análisis acerca de sus acciones o recomendaciones.Los sistemas de aprendizaje no supervisado suelen considerarse menos explicables (más opacos) que los de aprendizaje supervisado, que son más lineares y transparentes.
Extracción de características (Feature extraction): La extracción de características es un proceso de reducción de dimensionalidad mediante el cual un conjunto inicial de datos sin procesar se reduce a grupos más manejables para su procesamiento. Una característica de estos grandes conjuntos de datos es la enorme cantidad de variables que requieren una gran cantidad de recursos informáticos para procesar. A través de un proceso de extracción de características podemos selecciónar y / o combinar variables bajo una serie de características, reduciendo de manera efectiva la cantidad de datos que deben procesarse, sin dejar de describir de manera precisa y completa el conjunto de datos original.Es un proceso común en el deep learning, en el que los datos son procesados en una serie de capas, partiendo de una gran cantidad de datos de salida, como los millones de píxeles de una imagen, que luego se van agrupando en características, que se pasan a la siguiente capa de la red neuronal, que a su vez analiza estas características y las agrupa en un grupo menor de características más abstracta. El proceso continua hasta que disponemos de una capa de la red neuronal que detecta aquellas propiedades que buscábamos localizar en los datos crudos, por ejemplo, identificar el tipo de objetos que aparecen en una fotografía.
G
GAN (Generative Adversarial Networks): Una red generativa adversaria consta de dos redes neuronales: un generador y un discriminador. Un generador crea inputs (normalmente imágenes) basadas en un conjunto de datos y un discriminador determina si la imagen generada es real (es decir, existe en el conjunto de datos original) o falsa (es decir, generada). La interacción entre las dos redes permite al generador crear imágenes de alta calidad que engañan al discriminador. La mayoría de los sistemas que se utilizan comúnmente hoy en día para generar imágenes son un tipo de GAN. Fenómenos como los rostros humanos que en realidad no existen o los llamados deep fake se generan con esta tecnología.
I
Inteligencia artificial: Término difuso donde los haya que refiere de manera general a la disciplina científica de intentar reconstruir mediante algoritmos procesos que llevan a cabo los humanos y que se consideran inteligentes cuando una persona los lleva a cabo, para distinguirlos de procesos mentales que pueden hacerse automáticamente sin esfuerzo.En el sentido más estricto, la inteligencia artificial intenta establecer algoritmos que podrían estar implementados en nuestro cerebro y sistema nervioso para así entender mejor cómo funcionan nuestras mentes. Según este planteamiento, cuando una investigadora en IA propone algoritmos de traducción del inglés al castellano, intenta también establecer paralelismos en la forma en que los humanos llevamos a cabo esta tarea.Sin embargo, la comprensión más común del término es una disciplina ingenieril que busca simplemente establecer procesos automáticos para llevar a cabo tareas complejas que normalmente caracterizamos como “inteligentes” pero sin importarnos si los humanos usamos algún tipo de algoritmo similar. De hecho no nos interesa tamoco establecer si la forma en que la información se procesa en el algoritmo representa de alguna manera el conocimiento asociado, sino simplemente si el sistema lo hace bastante bien como para poder substituir a un humano con esa tarea.Por ejemplo, existe un software basado en aprendizaje automático que examina radiografías y detecta tumores con una eficiencia similar a la de un radiólogo. Sin embargo, está claro que la forma en que un humano hace esa tarea y cómo lo hace el algoritmo tienen muy poco que ver, y no podemos decir que el algoritmo tenga entre sus características una representación interna de qué es un tumor.
Inteligencia artificial general: La inmensa mayoría de los sistemas de inteligencia artificial actualmente en uso están limitados a un dominio específico. Así tenemos programas que juegan al Go o al ajedrez al mismo nivel de los humanos, programas capaces de reconocer rostros humanos, algoritmos capaces de darle sentido al tráfico urbano y conducir un automóvil etc. Sin embargo, el programa que juega al Go no sabe reconocer caras y viceversa. En cambio un humano puede aprender a llevar a cabo todas estas tareas sin problema. Con inteligencia artificial general nos referimos al objetivo de crear un sistema de inteligencia artificial que no sea dependiente de un dominio específico, sino que como una persona, puede aprender y procesar tareas tan diferentes como las indicadas arriba sin problemas.Actualmente estamos todavía muy lejos de un objetivo así y una parte significativa de expertos en inteligencia artificial o psicología creen que los sistemas actuales de IA no disponen de la sutileza necesaria para establecer una inteligencia general como la humana.
Interpretabilidad:Se refiere al grado y consistencia en que un ser humano puede entender la causa de una decisión algorítmica o de predecir el resultado de un modelo. Relacionado con transparencia, caja negra y explicabilidad.
M
Métrica de la equidad (Fairness): Por métrica de la equidad entendemos una definición matemática de equidad para poderla así implementar en un algoritmo y conseguir que en el desarrollo del modelo, además de eficiencia y exactitud, el modelo esté libre de sesgos y trate a los diferentes colectivos de la forma más ética posible.La inclusión de una nueva métrica implica normalmente una menor eficiencia y exactitud del modelo. Es importante destacar también que algunas de estas métricas no son compatibles entre sí, pues los mecanismos matemáticos asociados no permiten ser computados de forma simultánea, o bien generan resultados que no pueden ser conjuntados. De ahí se sigue que no puede haber una métrica universal de equidad matematizable, pues diferentes métricas darán diferentes resultados y diferentes distribuciones de características en la población estudiada. Es necesario así considerar diferentes tipos de métricas en función del problema que queremos analizar.Así, establecer una métrica de la equidad es finalmente un ejercicio matemático de asegurar una distribución más igualitaria de ciertas propiedades en el desarrollo del modelo, pero en ningún momento substituye a una auditoría ética llevada a cabo por personas expertas.Existen diferentes tipos de métricas de la equidad. En este glosario definimos las siguientes:
Equidad contrafactual
Métrica individual de la equidad
Paridad predictiva
Paridad demográfica
Probabilidades igualadas
Descritas en nuestro lenguaje cotidiano las descripciones sonarán probablemente muy similares. Ello se debe a que las diferencias clave entre las diferentes métricas se entienden mucho mejor si examinamos las fórmulas matemáticas usadas para hacer el cómputo.Existe un consenso general en que la equidad es un continuo que va de lo grupal a lo individual y que no es posible alcanzar equidad absoluta en todo el continuo.
Métrica individual de la equidad: Esta métrica analiza dos individuos que sean muy similares y observa si el algoritmo los clasifica de forma similar. Por ejemplo, un algoritmo que se usa para establecer la adecuación de una persona a un puesto de trabajo a partir de su CV. La métrica individual busca establecer si dos personas con CVs muy similares, pero donde una es mujer y el otro hombre recibirían una probabilidad similar de ser adecuados para un puesto de trabajo de directivo o no.La cruz de este algoritmo es como definir la similaridad entre dos miembros del dataset de manera que tengamos un sistema fiable y que no deje fuera posibles características que generen sesgos.
Minería de datos (Data mining):Minería de datos es un término genérico para referirse a la actividad de procesar una serie de datos en crudo con un algoritmo a la búsqueda de regularidades o patrones que resulten relevantes. Tomar las entradas de diferentes usuarios en una red social digital buscando crear perfiles para facilitar una publicidad personalizada es un ejemplo de minería de datos
Modelo: En inteligencia artificial y aprendizaje automático un modelo es un algoritmo que se “entrena” con datos e inputs humanos (reglas y refuerzos) y que codifica los patrones extraídos de los datos durante el entrenamiento. Una vez entrenado, el modelo puede analizar nuevas instancias. Por ejemplo, un modelo entrenado para reconocer perros en una fotografía podrá asignar una probabilidad determinada a que una nueva fotografía sea o no de un perro. Aquí estaríamos hablando de un modelo predictivo.
P
Paridad demográfica:La paridad demográfica es una métrica de la equidad que observa si los resultados del modelo clasificador no son dependientes de un atributo considerado como sensible. Así si un algoritmo para decidir la adecuación a un puesto de trabajo da resultados similares para diferentes grupos étnicos diremos que el algoritmo respeta una paridad demográfica. Es decir ofrecemos una métrica para establecer si hay sesgos a nivel poblacional.
Paridad predictiva: Se trata de una métrica de la equidad que analiza, para cada uno de los posibles grupos o comunidades de un dataset si la precisión con la que se ofrece una predicción es la misma. Es decir, que el nivel de fiabilidad de una predicción no está sesgada en función de la pertenencia o no a un grupo concreto. Si un algoritmo asigna la probabilidad para ser adecuado en un puesto de trabajo de directivo a hombres y mujeres con la misma precisión, diremos que ese algoritmo cumple, en relación al sesgo de género, con la métrica de equidad de la paridad predrictiva.
Probabilidades igualadas:Se trata de una métrica de la igualdad que comprueba la equidad de un clasificador. Básicamente, lo que busca esta métrica es establecer que para los diferentes grupos que forman un dataset, el algoritmo predice para los sujetos de los diferentes grupos analizados la misma tasa de verdaderos positivos y la misma tasa de falsos positivos. Es decir que las probabilidades de que un grupo concreto se le asignen las mismas propiedades están igualadas y no hay un grupo que vaya a recibir un trato discriminatorio.
Programa informático:Es la implementación de un algoritmo en un lenguaje de programación específico y que puede ser ejecutado por un dispositivo digital como un ordenador o un teléfono móvil (en cuyo caso recibe el nombre específico de app).Es importante recordar que aunque un algoritmo en sí mismo no esté sesgado, un programa concreto sí puede estarlo, porque la base de datos que usa está sesgada, porque han habido errores -o modificaciones maliciosas- en su implementación, porque se usa de una forma para la que el algoritmo original no estaba pensado, etc.Así, si queremos ser precisos, al sistema informático COMPAS -que usan muchos jueces norteamericanos para decidir si un detenido puede salir bajo fianza o ir a presión preventiva- deberíamos llamarle programa y no “algoritmo”.
R
Reconocimiento de patrones: La detección de una configuración particular y regular de características en un conjunto de datos.
Red neuronal (Neural network)
Reducción de dimensionalidad
Rendición de cuentas
S
Selección de variable (Feature selection)
Sesgo algorítmico: “Sesgo algorítmico” refiere a errores sistemáticos en un sistema informático quecrea resultados injustos, por ejemplo, privilegiando a un grupo de usuarios sobre otro. El sesgo puede surgir debido a una serie de factores, como el diseño del algoritmo, las aplicaciones no deseadas o la forma en que se recopilan, codifican, seleccionan o utilizan los datos para entrenar el algoritmo. Los sesgos algorítmicos van desde violaciones de la privacidad hasta la amplificación de los sesgos sociales de género, raza, etnia y sexualidad, que pueden conducir a una discriminación sistemática e injusta en una amplia variedad de situaciones, incluidas sentencias de prisión, tasas de aprobación de hipotecas y cálculos de primas de atención médica. Es importante entender aquí que aunque hablemos de “sesgo algorítmico” el problema puede no estar en el algoritmo en sí mismo, sino en la forma en què se han recopilado los datos que el algoritmo usa para construir el modelo, en una error en la implementación del algoritmo como un programa concreto, o en darle un uso específico para el que el algoritmo no estaba originalmente diseñado.
Sesgo de la automatización: Cuando una persona prefiere confiar en recomendaciones generadas por un sistema automático de toma decisiones, versus a información generada de forma no automática, aunque sea consciente de que los sistemas automáticos puedan cometer errores.
T
Transparencia
V
Variable:Cada instancia en un conjunto de datos se puede describir mediante variables (o atributos/attributes o características/features) que capturan información relevante acerca de la instancia. Por ejemplo, la altura de una persona.
Visión por ordenador/ Visión por computador: La visión por ordenador refiere a tecnologías que extraen información y pueden categorizar fotografías y vídeos, estableciendo qué elementos hay una escena, reconocer rostros, etc. Para hacerlo se observan los píxeles individuales y las características que se derivan de ellos, buscando patrones en sus variaciones. Actualmente la mayoría de aplicaciones en este campo se basan en aplicaciones de deep learning.