Lo que viene a continuación es un recorrido sobre las bases teóricas que te permitirán tener una comprensión más exacta sobre lo que estamos viviendo actualmente en el mundo de la inteligencia artificial.
«Lo que estamos viviendo», no es otra cosa que una auténtica revolución tecnológica sin precedentes. Algunos expertos la comparan con la invención de Internet, aunque los más especializados en este campo, afirman sin dudarlo que los cambios que se están produciendo estos días van incluso más allá.
Quizás te parezca algo exagerado, pero al final y tras entender qué se está consiguiendo en la actualidad, es muy probable que cambies de opinión.
Todavía estamos lejos de alcanzar una comprensión amplia de las consecuencias sociales que se van a producir dentro de muy poco y que ya se empiezan a intuir, pero pronto llegaremos a eso.
Si alguien te preguntara cuál es tu definición de la IA, ¿qué le dirías? La respuesta es complicada ya que la inteligencia artificial es un tema complejo. Por esa razón, podemos encontrar distintas definiciones acerca de ella. Aquí te dejo un par de muestras:
La inteligencia artificial (IA) es un campo de la informática que se enfoca en desarrollar sistemas y programas capaces de realizar tareas que, normalmente, requieren de la inteligencia humana. Estos sistemas son diseñados para aprender de la experiencia, adaptarse a nuevas situaciones, y realizar decisiones y acciones de manera autónoma. En resumen, la inteligencia artificial busca imitar la capacidad de pensamiento y resolución de problemas propios de los seres humanos mediante algoritmos y tecnologías informáticas avanzadas.
Podríamos simplificar el tema definiendo la IA como «la habilidad de los ordenadores para hacer actividades que normalmente requieren inteligencia humana». Pero, para brindar una definición más detallada, podríamos decir que la IA es la capacidad de las máquinas para usar algoritmos, aprender de los datos y utilizar lo aprendido en la toma de decisiones tal y como lo haría un ser humano. Sin embargo, a diferencia de las personas, los dispositivos basados en IA no necesitan descansar y pueden analizar grandes volúmenes de información a la vez. Asimismo, la proporción de errores es significativamente menor en las máquinas que realizan las mismas tareas que sus contrapartes humanas.
De estas dos definiciones, una de ellas ha sido generada por ChatGPT y la otra por un autor experto en IA. ¿Serías capaz de atribuir su autoría?. Esta tarea la dejaremos para las actividades.
Contrario a lo que se podría pensar, la IA no es un fenómeno mágico envuelto en un velo de misterio, todo lo contrario, lo que subyace son pura y simplemente: matemáticas, concretamente estadística.
De hecho, la inteligencia artificial es bastante antigua (en términos tecnológicos), remontándose sus inicios hasta, al menos, los años 40, aunque la base tecnológica es aún anterior.
Entonces, ¿a qué viene tanto revuelo?. Pues viene a que su maduración se ha acelerado de manera vertiginosa comprimiendo en los últimos dos años el avance estimado para 15 años, debido a algunos factores críticos que hasta ahora no se habían dado. Por ejemplo:
Disponibilidad de datos: la masiva generación de datos a través de dispositivos móviles e interacciones online ha proporcionado el material necesario para «entrenar» sistemas de IA.
Digitalización: la transformación digital y el uso de sensores para recoger información variada, conocido como el Internet de las Cosas, ha extendido enormemente las aplicaciones de la IA.
Avances tecnológicos: el progreso en el almacenamiento y procesamiento de datos, junto con las mejoras en algoritmos, ha permitido abordar una gama más amplia de problemas.
Innovaciones destacadas: los avances en la capacidad de procesar de forma automática por parte de las máquinas el lenguaje natural, han marcado un antes y un después.
Aunque la IA hoy forma parte de todos los aspectos de nuestra vida cotidiana, todavía muchas personas no son conscientes de ello, lo que subraya la importancia de una educación que nos permita comprender qué es la inteligencia artificial, cómo la utilizamos, qué impacto tiene en nuestras vidas y cómo podemos actuar frente a sus posibles usos indebidos.
ACTIVIDADES
1. ¿Qué definición de es la inteligencia artificial (IA) te parece más humana?. Razónalo
2. Crea una línea de tiempo cronológica con la aplicación que más te guste (Canva, Genially, Impress, etc.) sobre la evolución de la IA a lo largo de la historia. Debe incluir título, fecha, una imagen e información (que no sea la misma que la del enlace). Para facilitarte la tarea, te aporto algunos datos y un enlace, aunque la información que pongas debe estar contextualizada : álgebra de Boole, Claude Shannon, Colossus y ENIAC, tubo de vacío y transistor, puertas lógicas, UNIVAC 1, Warren McCulloch y Walter Pitts, arquitectura Von Neuman, FORTRAN y COBOL, da Vinci Xi . ENLACE
3. Busca información sobre el test de Turing y su utilidad.
4. ¿Qué repercusiones tiene el Big Data en la IA?
5. Crea una tabla a dos columnas (usos y ejemplos) con la información del enlace ENLACE: USOS DE LA IA
Para entender cómo funciona la IA, es fundamental familiarizarse con tres conceptos clave: algoritmos, aprendizaje automático y redes neuronales.
3.1 ALGORITMOS
Un algoritmo es una secuencia de instrucciones que se siguen para resolver un problema. Tan simple como una receta para freír un huevo
En el contexto de la IA, los algoritmos son el núcleo que permite a las máquinas procesar datos, tomar decisiones y aprender de la experiencia.
Los algoritmos de IA pueden variar desde simples instrucciones condicionales (si esto, entonces aquello: si el semáforo está en rojo, frenar) hasta complejos cálculos matemáticos (encuentra el siguiente número primo de 300 cifras).
Están diseñados para optimizar la toma de decisiones, procesando grandes cantidades de datos a una velocidad y con una precisión que superan con creces la capacidad humana.
¿Serías capaz de decidir en 10 segundos dónde construir una estación de bomberos en tu provincia si tuvieras delante un excel que maneja 3000 variables? No, ni en 10 años. Un algoritmo, si, y le sobrarían 5 segundos.
Se utilizan en una amplia gama de aplicaciones, desde motores de búsqueda en internet como Google o Bing, que ordenan los resultados según la relevancia, hasta sistemas de recomendación como Netflix, que te sugiere contenidos basándose en lo que ya has visto dentro de la plataforma.
3.2 APRENDIZAJE AUTOMÁTICO
El aprendizaje automático o "machine learning" es el arte y la ciencia de permitir a las máquinas aprender y mejorar automáticamente a partir de la experiencia (los datos), sin necesidad de ser programadas explícitamente para cada tarea específica. Utiliza algoritmos que analizan datos, «aprenden de ellos» y toman decisiones o predicciones basadas en la información adquirida.
La forma tradicional de hacer que una computadora logre algo es darle instrucciones explícitas (si sucede esto, haz esto, de lo contrario haz aquello, etc.) que se escriben a mano en un lenguaje de programación determinado. Este método de programación de computadoras es extremadamente exitoso y se ha utilizado para desarrollar prácticamente todo el software que se ejecuta en nuestras computadoras, teléfonos e incluso automóviles. Sin embargo, este método no siempre es el más práctico.
Por ejemplo, consideremos el desarrollo de un programa para identificar imágenes. Habría que considerar todas las posibles combinaciones de píxeles para que en función de sus características podamos instruir al algoritmo o computadora acerca del objeto de que está 'visualizando'.
Sucede que se nos da muy bien programar cosas que hemos aprendido a hacer como una suma o una multiplicación pero nos resulta extremadamente difícil enseñar lo que nos es innato, por ejemplo andar, mover un brazo, etc.
El aprendizaje automático es un enfoque que permite a la computadora aprender patrones y relaciones en los datos a través de algoritmos y modelos matemáticos. En el caso de la identificación de imágenes, en lugar de programar reglas explícitas, se alimenta a la computadora con un conjunto de imágenes etiquetadas y se le permite aprender por sí misma cómo reconocer diferentes objetos o patrones en las imágenes.
El proceso de aprendizaje automático implica entrenar a la computadora utilizando ejemplos y ajustar sus conexiones internas, de modo que pueda hacer predicciones precisas sobre nuevas imágenes que nunca ha visto antes. Esto se logra mediante el uso de algoritmos de aprendizaje automático, como las redes neuronales, que son capaces de capturar características complejas y extraer información útil de los datos de entrada.
A medida que se alimenta a la computadora con más datos y se perfeccionan los algoritmos de aprendizaje, la precisión y la capacidad de reconocimiento de imágenes de la computadora mejoran con el tiempo. Este enfoque es especialmente útil en casos en los que las reglas explícitas serían demasiado difíciles o tediosas de programar, o cuando los patrones en los datos no son fácilmente discernibles para los humanos.
En resumen, el enfoque tradicional de programación mediante instrucciones explícitas está siendo complementado y en algunos casos reemplazado por el aprendizaje automático, que permite a las computadoras aprender a reconocer patrones y tomar decisiones basadas en datos en lugar de reglas predefinidas. Esta técnica está transformando la forma en que desarrollamos programas y abre un amplio abanico de posibilidades para aplicaciones más inteligentes y adaptativas.
Y aunque ahora entendamos el concepto de "aprender de los datos", debemos tener en cuenta que todos los datos no son iguales. Esto significa que los datos generados por las aplicaciones de redes sociales son completamente diferentes de los datos generados por los sistemas de punto de venta o cadena de suministro. Algunos datos están estructurados, pero la mayoría no están estructurados. La forma en que se recopilan, procesan y analizan estos datos depende de su formato.
Actualmente, dentro del Big Data, se distinguen dos tipos de datos: datos estructurados y datos no estructurados:
Datos estructurados: Los datos estructurados se clasifican con mayor frecuencia como datos cuantitativos, y es el tipo de datos con el que la mayoría de nosotros estamos acostumbrados a trabajar. Piensa en datos que encajen perfectamente en campos y columnas fijos en bases de datos relacionales y hojas de cálculo.
Los datos estructurados están muy organizados y se comprenden fácilmente mediante el lenguaje de máquina. Quienes trabajan con bases de datos relacionales pueden ingresar, buscar y manipular datos estructurados con relativa rapidez. Esta es la característica más atractiva de los datos estructurados.
Datos no estructurados: Los datos no estructurados se clasifican con mayor frecuencia como datos cualitativos y no pueden procesarse y analizarse utilizando herramientas y métodos convencionales. Se presentan sin un formato ni estructura específico, como los que provienen de texto, vídeo, audio, actividad móvil, actividad en redes sociales, imágenes por satélitale, imágenes de vigilancia, etc.
ACTIVIDADES
6. ¿Cómo crees que lleva a cabo el aprendizaje automático el filtro anti spam de tu correo electrónico o el filtro de llamadas no deseadas de tu móvil?
7. Busca e inserta una imagen (de una tabla o infografía) donde se establezca la diferenciación con algunos ejemplos entre datos estructurados y no estructurados.
Bien, ahora que entiendes el concepto de «aprender de los datos», veamos los tres tipos principales de aprendizaje que existen:
Aprendizaje Supervisado: Es como si le mostrases fotos y le dijeses: “Esto es un gato” o “Esto es un perro”. El robot aprende de los ejemplos que le das para poder decir si la próxima foto que ve es un gato o un perro.
Aprendizaje No Supervisado: Es un poco diferente. Aquí, simplemente le das un montón de fotos sin decirle cuál es cuál. El robot tiene que ver las fotos y decir: “Hmm, estas fotos se parecen entre sí, y estas otras fotos se parecen entre sí, así que creo que hay dos grupos diferentes”.
Aprendizaje por Refuerzo: Es como entrenar a un perro. Cada vez que el robot acierta (por ejemplo, dice correctamente si es un gato o un perro), le das una “golosina virtual” y cuando se equivoca, le dices “inténtalo de nuevo”. Así, el robot está motivado para mejorar y aprender correctamente.
3.2.1. APRENDIZAJE SUPERVISADO
El aprendizaje supervisado o aprendizaje de etiquetas es el modelo de aprendizaje más común. En el aprendizaje supervisado, la computadora aprende a partir de un conjunto de pares de entrada-salida, que se llaman ejemplos etiquetados.
El objetivo del aprendizaje supervisado suele ser entrenar un modelo predictivo a partir de estos pares. Un modelo predictivo es un programa que puede adivinar el valor de salida (también conocido como etiqueta) para una nueva entrada no vista. En pocas palabras, la computadora aprende a predecir utilizando ejemplos reales.
Existen numerosas aplicaciones de dicho tipo de aprendizaje, y casi cada día aparecen nuevas, en el siguiente listado hacemos un pequeño resumen de la tipología y posibilidades de las mismas:
Reconocimiento de Imágenes: Utilizado en el etiquetado automático de imágenes, reconocimiento facial, y diagnóstico médico a partir de imágenes de radiografía o resonancia magnética.
Generación de texto a partir de un texto anterior usando como entrada frases y palabras de textos reales.
Detección de Fraude: En el sector financiero, para identificar actividades sospechosas en transacciones de tarjetas de crédito o en comportamientos de usuarios en línea.
Predicción de Ventas: En el comercio y la industria para prever tendencias de ventas y gestionar inventarios en base a datos históricos.
Diagnósticos Médicos: Analizando registros médicos para ayudar en el diagnóstico precoz de enfermedades.
Reconocimiento de Voz y Procesamiento del Lenguaje Natural (NLP): Para convertir el habla en texto, traducción automática, y análisis de sentimiento en textos.
Predicción de Riesgos de Crédito: En el sector bancario, para evaluar la solvencia de los solicitantes de crédito.
Personalización de Contenidos: En plataformas de streaming y servicios en línea, para recomendar películas, música o productos basados en las preferencias del usuario.
Análisis de Series Temporales: Para predecir valores futuros en datos financieros, meteorológicos o de cualquier otro tipo que se registre a lo largo del tiempo.
Clasificación de Documentos: En sistemas de gestión de información, para clasificar y organizar documentos automáticamente.
Control de Calidad en Manufactura: Para detectar defectos en productos en las líneas de ensamblaje a través de imágenes y sensores.
3.2.2. APRENDIZAJE NO SUPERVISADO
El aprendizaje no supervisado es el segundo modelo de aprendizaje más utilizado. No se utiliza tanto como el aprendizaje supervisado, pero es más potente y se asemeja más al funcionamiento del cerebro humano. En el aprendizaje no supervisado, no hay entradas ni salidas, los datos son simplemente un conjunto de ejemplos caracterizados por ciertos parámetros que permiten su agrupación en conjuntos similares de entidades.
El aprendizaje no supervisado se puede utilizar para una amplia gama de tareas. Una de ellas se llama agrupamiento o clustering y su objetivo es separar los ejemplos de datos en grupos llamados clusters:
Supongamos, que tienes miles de fotografías almacenadas en tu teléfono (Bueno, sin suponer, las tienes). Estas fotos incluyen todo tipo de eventos: vacaciones, quedadas con amigos y familiares, paisajes, comidas, etc. Quieres organizar estas fotos para facilitar su búsqueda, pero dada la gran cantidad, hacerlo manualmente sería extremadamente tedioso.
Para solucionar este problema, utilizamos la técnica del «clustering» para organizar automáticamente las fotos en grupos según similitudes sin necesidad de etiquetarlas una por una.
Un software analiza las características visuales de cada foto. Esto incluye colores, formas, si hay caras (y cuántas), la presencia de elementos naturales como agua o montañas, etc.
Utilizando un algoritmo de clustering, el software agrupa las fotos basándose en sus similitudes. Por ejemplo, fotos con características similares de paisajes naturales se agruparían, mientras que aquellas con muchas caras podrían identificarse como reuniones familiares o eventos sociales.
Después de ejecutar el algoritmo, te encuentras con que tus fotos han sido organizadas en varios álbumes: uno para las vacaciones en la playa (identificado por la presencia de agua, arena y cielos soleados), otro para cenas familiares (fotos tomadas en interiores con alimentos y grupos de personas alrededor de una mesa), y otro para excursiones a la montaña (identificado por la presencia de vegetación, montañas y cielos despejados), entre otros.
Como habrás podido notar, mientras que el aprendizaje supervisado se enfoca en predecir o clasificar datos nuevos basándose en aprendizajes previos (identificar correo no deseado), el no supervisado busca descubrir estructuras ocultas en los datos (agrupar fotos similares).
La detección de anomalías es otra tarea que se puede abordar de manera no supervisada. La detección de anomalías se refiere a la identificación de ejemplos que son anómalos, es decir, valores atípicos que no encajan en alguno de los clusters establecidospor el algoritmo. Estas anomalías podrían ser útiles para detectar transacciones fraudulentas con tarjetas de crédito, limpiar un conjunto de datos o detectar cuando algo está saliendo mal en un proceso de fabricación
El aprendizaje no supervisado se utiliza un poco menos que el aprendizaje supervisado, principalmente porque las tareas que resuelve son menos comunes y más difíciles de implementar que las tareas predictivas. Sin embargo se puede aplicar a un conjunto más diverso de tareas que el aprendizaje supervisado. Como ejemplos genéricos de su uso proponemos los siguientes:
Segmentación de Clientes: Utilizado en marketing para agrupar clientes en segmentos basados en características similares, lo que ayuda a personalizar estrategias de marketing.
Detección de Anomalías: Para identificar comportamientos anómalos o inusuales en diversas áreas, como fraudes en tarjetas de crédito, fallos en máquinas o actividad sospechosa en redes informáticas.
Agrupación de Documentos: Para organizar automáticamente grandes colecciones de documentos, como artículos científicos o noticias, en categorías temáticas.
Recomendación de Productos: En comercio electrónico y plataformas de streaming, para sugerir productos o contenidos basados en preferencias de usuarios similares.
Análisis de Redes Sociales: Para identificar comunidades o tipos de mensajes/imágenes
Exploración de Datos Genéticos: En biología y medicina, para clasificar y estudiar patrones genéticos y biomarcadores.
Análisis de Patrones en Series Temporales: Como en la detección de tendencias en los mercados financieros o en datos meteorológicos.
Optimización de Procesos Industriales: Para identificar patrones y mejorar la eficiencia en procesos de manufactura.
Visión por Computadora: En la identificación y clasificación de objetos en imágenes cuando no están etiquetados previamente.
3.2.3. APRENDIZAJE POR REFUERZO
El tercer paradigma de aprendizaje clásico se llama aprendizaje por refuerzo, que es una forma en que los agentes autónomos aprenden. El aprendizaje por refuerzo es fundamentalmente diferente del aprendizaje supervisado y no supervisado en el sentido de que los datos no se proporcionan como un conjunto fijo de ejemplos. En cambio, los datos para aprender se obtienen interactuando con un sistema externo llamado entorno. El nombre "aprendizaje por refuerzo" proviene de la psicología del comportamiento, pero también podría llamarse "aprendizaje interactivo".
El aprendizaje por refuerzo se utiliza a menudo para enseñar a los agentes, como robots, a aprender una tarea determinada. El agente aprende tomando acciones en el entorno y recibiendo observaciones de este entorno.
Normalmente, el agente comienza su proceso de aprendizaje actuando al azar en el entorno, y luego el agente aprende gradualmente de su experiencia para realizar mejor la tarea utilizando una especie de estrategia de prueba y error. El aprendizaje generalmente está guiado por una recompensa que se le da al agente según su desempeño. Más precisamente, el agente aprende una política que maximiza esta recompensa. Una política es un modelo que predice qué acción tomar teniendo en cuenta las anteriores acciones y observaciones.
El aprendizaje por refuerzo se puede utilizar, por ejemplo, para que un robot aprenda a caminar en un entorno simulado. En el vídeo se ilustra el aprendizaje por refuerzo hecho y grabado por la empresa Boston Dynamics. En él se fija un objetivo como es mantener el equilibrio, y se van ajustando las variables (posición y sincronización de elementos móviles) para poco a poco lograr una estabilidad que contribuya al equilibrio:
Si te gustan los robots, en este enlace puedes ver cómo han evolucionado los robots de la empresa Boston Dynamics.
Uno de los ejemplos más antiguos es el entrenamiento de un algoritmo que juega de forma autónoma al Breakout. Se trata de un antiguo videojuego de Atari muy sencillo.
En este caso, no hay jugador, sino un algoritmo diseñado por aprendizaje por refuerzo. Lo único que recibe el algoritmo es lo que se ve en la pantalla. Su objetivo es maximizar el número de puntos. No sabe qué es un ladrillo, no conoce el concepto de bola ni tampoco para qué se usan los controles que mueven la barra.
Durante los 10 primeros minutos el algoritmo intenta darle a la pelota, pero todavía es demasiado torpe. Después de 2 horas de entrenamiento, juega mucho mejor que el mejor de los jugadores de carne y hueso. Pero, tras 4 horas de entrenamiento, sucede algo que deja con la boca abierta a los programadores. El algoritmo ha encontrado por sí solo, una estrategia que acelera la consecución de su objetivo: crea un túnel para que la pelota quede atrapada en la parte superior y rompa ladrillos a mayor velocidad, y sin necesidad de estar moviendo la barra, con lo que minimiza las probabilidades de error.
¡Nadie se lo ha enseñado! Pero ha llegado a la misma conclusión que la inteligencia humana. Ha descubierto la estrategia ganadora.
Esto, que ya supone un enorme descubrimiento con miles de aplicaciones prácticas, es de risa si lo comparamos con lo que consiguió OpenAI (hoy conocida por ChatGPT) cuando hace 4 años publicó este experimento de aprendizaje por refuerzo multiagente, donde los agentes (personajes azules) «aprenden a colaborar» para salvar la vida (que no les pillen los rojos).
Recuerda, que todo lo que verás en el vídeo, lo han aprendido por sí solos a base de ensayo y error, aplicando un sencillo sistema de recompensas: sobrevivir. Alucinante. Hace 4 años, ¡la prehistoria de la IA, vaya!.
Un problema al aplicar el aprendizaje por refuerzo directamente en un sistema del mundo real es que durante la fase de aprendizaje, el agente podría realizar acciones que podrían dañar el sistema o plantear problemas de seguridad.
El aprendizaje por refuerzo es probablemente el modelo más emocionante, ya que el agente aprende interactuando, como un ser vivo. Los sistemas activos tienen el potencial de aprender mejor que los sistemas pasivos porque pueden decidir por sí mismos qué explorar para mejorar. Podemos imaginar todo tipo de aplicaciones utilizando este paradigma, desde un robot agrícola que aprende a mejorar la producción de cultivos, hasta un programa que aprende a operar en el mercado de valores, o un chatbot que aprende teniendo conversaciones con humanos. Desafortunadamente, los algoritmos actuales requieren una gran cantidad de datos para ser efectivos, por lo que la mayoría de las aplicaciones de aprendizaje por refuerzo utilizan entornos virtuales. Además, los problemas de aprendizaje por refuerzo son generalmente más complicados de manejar que los problemas supervisados y no supervisados. Por estas razones, el aprendizaje por refuerzo se utiliza menos que otros modelos en aplicaciones prácticas. A medida que la investigación avanza, es probable que los algoritmos necesiten menos datos para operar y se desarrollen herramientas más simples. El aprendizaje por refuerzo podría convertirse en modelo dominante en el futuro.
ACTIVIDAD
8. Realiza una tabla a dos columnas y clasifica las siguientes actividades dentro del marco del aprendizaje supervisado o no supervisado. Ordena cada columna por orden alfabético:
A. proyectar campaña de marketing, B. determinar riesgo de tormenta, C. detectar piezas con errores de fabricación, D. recomendar sugerencias de Spotify de otros usuarios, E. estudiar procesos genéticos, F. interpretar radiografías, G. reconocimiento facial, H. prevenir enfermedades, I. evaluar a un cliente bancario para un préstamo, J. mejorar procesos de fabricación, K. clasificar objetos sin etiquetar, L. detectar actividad sospechosa de hackers, M. detectar mal uso de tarjetas de crédito, N. traducir idiomas, Ñ. organizar grandes cantidades de archivos por categorías, O. hacer una redacción a partir de un patrón, P. gestionar inventarios, R. escribir en la agenda con voz, S. compra venta de acciones de bolsa, T. recomendación de Netflix, U. estudiar el cambio climático, V. organizar archivos automáticamente.
9. Investiga si hay algún modelo de coche que emplee el aprendizaje por refuerzo
10. Define resumidamente aprendizaje supervisado, no supervisado y por refuerzo.
3.3 REDES NEURONALES
Las redes neuronales son estructuras computacionales inspiradas en el funcionamiento del cerebro humano, diseñadas para procesar información de manera similar a como lo hacemos nosotros. Se trata de un proceso de aprendizaje automático llamado aprendizaje profundo –deep learning–.
3.3.1. ¿QUÉ ES EL DEEP LEARNING?
Deep learning es un subconjunto de machine learning, que es básicamente una red neuronal con tres o más capas. De todas las capas posibles, todas están ocultas menos la primera capa (entrada de datos) y la última (salida de datos).
Estas redes neuronales intentan emular el comportamiento del cerebro humano, que aunque lejos de igualar su capacidad, le permiten "aprender" a partir de grandes cantidades de datos. Aunque una red neuronal con una sola capa ya puede realizar predicciones aproximadas, las capas ocultas adicionales ayudan a optimizar y refinar la precisión.
Deep learning impulsa muchos servicios y aplicaciones de inteligencia artificial que mejoran la automatización, realizando tareas analíticas y físicas sin intervención humana. La tecnología de deep learning reside detrás de muchos productos y servicios de uso cotidiano (como los asistentes digitales, los controles de TV habilitados por voz y la detección de fraudes con tarjeta de crédito), así como de tecnologías emergentes (como los automóviles autónomos).
3.3.2. COMPARACIÓN ENTRE DEEP LEARNING Y MACHINE LEARNING
Si deep learning es un subconjunto de machine learning, ¿en qué se diferencian? Deep learning se distingue del machine learning clásico por el tipo de datos con los que trabaja y los métodos mediante los cuales aprende.
Los algoritmos de machine learning aprovechan los datos estructurados y etiquetados para realizar predicciones, lo que conlleva la definición de características específicas durante la entrada de datos para el modelo y su organización en tablas. Esto no significa necesariamente que no utilice datos no estructurados, solo que si lo hace, normalmente pasa por algún procesamiento previo para organizarlos en un formato estructurado.
Deep learning elimina parte del procesamiento previo de datos que requiere machine learning. Estos algoritmos pueden ingerir y procesar datos no estructurados, como texto e imágenes, y automatizan la extracción de características, eliminando parte de la dependencia de expertos humanos. Por ejemplo, pongamos que tenemos un conjunto de fotos de diferentes mascotas, y queremos categorizarlo por "gato ", "perro", "hámster", etc. Los algoritmos de deep learning pueden determinar qué características (por ejemplo, las orejas) son las más importantes para distinguir a un animal de otro. En machine learning, esta jerarquía de características la establece manualmente un experto humano.
3.3.2. ¿CÓMO FUNCIONA DEEP LEARNING?
Las redes neuronales de deep learning, o redes neuronales artificiales, tratan de imitar el cerebro humano a través de una combinación de entradas de datos, ponderaciones y sesgos.
Las ponderaciones y sesgos, son variables que se incorporan al algoritmo para corrección de errores y optimización del propio algoritmo. A continuación, a través de los procesos de pendiente de gradiente y propagación inversa, el algoritmo de deep learning se ajusta y se adapta a sí mismo para ganar precisión, lo que le permite realizar predicciones con mayor fiabilidad.
Las redes neuronales profundas constan de varias capas de nodos interconectados, cada uno sobre la capa anterior para refinar y optimizar la predicción o categorización. Esta progresión de cálculos a través de la red se denomina propagación hacia delante. Las capas de entrada y salida de una red neuronal profunda se denominan capas visibles. La capa de entrada es donde el modelo de deep learning ingiere los datos para el procesamiento, y la capa de salida es donde se realiza la predicción o clasificación final.
Otro proceso llamado propagación inversa utiliza algoritmos, como pendiente de gradiente, para calcular errores en las predicciones y luego ajusta las ponderaciones y los sesgos de la función moviéndose hacia atrás a través de las capas con la finalidad de entrenar el modelo. Juntas, la propagación hacia delante y la propagación inversa permiten a la red neuronal realizar predicciones y corregir los errores en consecuencia. Con el tiempo, el algoritmo va ganando precisión.
Lo anterior describe el tipo más simple de red neuronal profunda en los términos más simples. Sin embargo, los algoritmos de deep learning son increíblemente complejos y existen diferentes tipos de redes neuronales para abordar problemas o conjuntos de datos específicos. Por ejemplo:
Las redes neuronales convolucionales (CNN, por sus siglas en inglés), usadas principalmente en aplicaciones de clasificación de imágenes y visión computacional, pueden detectar características y patrones de una imagen, habilitando tareas, como la detección o el reconocimiento de objetos. En 2015, por primera vez, una CNN superó a un humano en un reto de reconocimiento de objetos.
Las redes neuronales recurrentes (RNN, por sus siglas en inglés) se utilizan normalmente en aplicaciones de lenguaje natural y reconocimiento de voz, ya que aprovechan datos de series temporales o secuenciales.
ACTIVIDAD
11. Busca información sobre los usos que tiene el deep learning en la empresa.
Para generar texto se utiliza el procesamiento del lenguaje natural (PLN), que es una rama de la inteligencia artificial que ayuda a los ordenadores a entender, interpretar y manipular el lenguaje humano.
Aunque pueda sonar complejo, la idea básica es bastante sencilla: hacer que las máquinas puedan «leer» y responder a nuestras palabras de manera inteligente.
A través de los años, las capacidades de los modelos de PLN han avanzado enormemente. A continuación, se describen algunas de las cosas de las que es capaz un modelo de PLN:
Análisis de Sentimiento. Determinar si un texto expresa un sentimiento positivo, negativo o neutro. Es ampliamente utilizado en monitoreo de redes sociales y análisis de opiniones en línea.
Traducción Automática. Traducir texto de un lenguaje a otro. Ejemplos famosos incluyen herramientas como Google Translate.
Resumen Automático. Generar resúmenes concisos de textos largos.
Reconocimiento de Entidades Nombradas. Identificar y clasificar entidades en un texto (como nombres de personas, organizaciones, lugares, etc.).
Clasificación de Texto. Clasificar textos en diferentes categorías. Por ejemplo, determinar si un email es spam o no.
Respuesta a Preguntas. Responder preguntas basadas en un conjunto de información o conocimiento. Los chatbots y asistentes virtuales a menudo utilizan esta capacidad.
Generación de Texto. Producir texto de manera coherente y relevante. Por ejemplo, modelos como GPT-3 y GPT-4 de OpenAI son capaces de generar contenido textual en una variedad de estilos y temas.
Extracción de Información: Extraer datos específicos de textos grandes, como extraer fechas, cifras, hechos, etc.
Corrección Ortográfica y Gramatical: Identificar y corregir errores en el texto.
Análisis de Dependencia y Sintáctico: Descomponer y entender la estructura gramatical de las oraciones.
Reconocimiento de Voz: Convertir el habla en texto. Esta tecnología está detrás de asistentes como Siri, Alexa y Google Assistant.
Síntesis de Voz: Convertir texto escrito en habla.
Recomendaciones de Texto. Sugerir palabras o frases mientras un usuario está escribiendo, como lo hace el teclado de un smartphone o las búsquedas en Google.
Desambiguación Léxica. Determinar el significado de una palabra basándose en su contexto.
Detección de Idioma. Identificar en qué idioma está escrito un texto.
LA REINA DE LA GENERACIÓN DE TEXTO
Aunque se ha hablado mucho en los últimos tiempos de cuál es la herramienta IA que lidera esta carrera, la verdad es que por muchas razones, la reina indiscutible sigue siendo ChatGPT de OpenAI.
Por eso, vamos a repasar cómo funciona y de qué manera podemos aprovecharnos de sus capacidades.
Para acceder a ChatGPT, ve a chat.openai.com, te registrase inicias sesión. Su interfaz es muy sencilla, te da ejemplos básicos de tareas que es capaz de realizar, y te ofrece un campo de entrada de texto para que escribas un mensaje.
¿Qué mensaje? Básicamente, una orden donde le pides cosas:
Dame todos los detalles que se conozcan del asesinato de Kennedy.
Tengo alcachofas, huevos y queso, dame una receta para la cena.
Genera una tabla con las ventas mensuales de entradas de cine en España.
Dame la solución al problema que te voy a plantear a continuación.
Escribe un programa en C++ para controlar un escáner de códigos de barra.
Todas esas órdenes se llaman PROMPTS. Existe todo un universo de técnicas, trucos y habilidades para construir prompts que la IA entienda para conseguir la respuesta más útil, según nuestras necesidades. De hecho, ya existe un nuevo ecosistema de ofertas de trabajo relacionados con la Ingeniería de Prompts.
cuando tú interactúas con ChatGPT, su conocimiento es muy amplio y te dará respuestas de baja complejidad. Si eres muy entendido en un tema, deberás ir pidiéndole gradualmente que vaya ofreciendo más detalles, que no use ciertas estructuras gramaticales o que corrija algún defecto ortográfico. Una vez que estés consiguiendo las respuestas que buscabas, te habrás beneficiado de la media hora de indicaciones que le has ido dando hasta encontrar la calidad de las respuestas que necesitabas.
Cuando el algoritmo te da una respuesta y quieres que le dé una vuelta, puedes darle alguna de estas órdenes para obtener estos efectos:
PARAFRASEA: cambia las palabras y estructuras gramaticales para que diga lo mismo pero de manera diferente.
REPLANTEA: genera el mismo argumento que te ha dado, pero desde otro punto de vista.
EXPANDE: te da muchos más detalles en la respuesta, ampliando su argumentación o el nivel técnico de sus explicaciones.
ILUSTRA: te dará ejemplos mucho más concretos y más detallados que sean más comprensibles. A veces, aporta incluso un toque emocional.
SIMPLIFICA: sintetiza un tema complejo en pocas líneas, condensando las ideas más importantes.
REESTRUCTURA: cambia el orden de las ideas para presentarlas en un flujo mucho más lógico.
ENRIQUECE: añade datos, referencias, curiosidades, anécdotas, etc., para que tu texto sea mucho más completo.
REINTERPRETA: le da nueva vida al contenido. Mantiene la base pero te cambia el significado final.
ELABORA: para cuando necesitas más detalles o aclaraciones sobre un punto específico.
HUMANIZA: a veces el resultado aparenta ser robótico y se intuye la mano de una IA. Con esta orden, las dudas tienden a desaparecer. Si no tienes mucha experiencia con ChatGPT, no lo notas.
Aparte de todo lo anterior, ¿qué mejor fuente de información para sacarle el máximo partido a ChatGPT que el propio creador? Aquí tienes las mejores estrategias -y ejemplos de uso de cada una- para obtener las respuestas que deseas:
Incluye detalles para obtener respuestas más relevantes.
Dile a la herramienta que adopte el rol de una persona concreta.
Usa delimitadores para indicar claramente las partes de tu solicitud.
Especifica los pasos a seguir para que complete una tarea.
Proporciona ejemplos.
Indica la longitud deseada de la respuesta.
ACTIVIDAD
11. Elige un tema (puedes cambiar de tema en cada pregunta), aplica los siguientes prompts y sube el resultado a tu web. (NOTA: el tema, texto, url, etc. no hay que ponerlo entre corchetes)
¿Puedes explicar [tema] de manera simple?
¿Cuáles son los aspectos más importantes sobre [tema]?
¿Puedes hacerme una prueba para evaluar lo que he aprendido sobre [tema]?
¿Dime algún consejo para estudiar y memorizar información relacionada con [tema]?
Resume el texto siguiente en forma de lista con los puntos más importantes. Texto: [pegar texto]
Resume el libro en forma de lista con los puntos más importantes. libro: [título del libro]
Resume el texto siguiente en forma de lista con los puntos más importantes de la página web: [insertar URL]
Traduce este texto a [idioma]: [insertar texto]
Crea un mapa mental en texto sobre [tema] enumerando la idea central, las ramificaciones que parten del centro y las subramificaciones de cada rama.
Usa una analogía o metáfora para explicar [tema]
Actúa como profesor de [materia y nivel educativo] Plantéame un ejercicio sobre [tema concreto] y una vez te de la respuesta indícame si es correcto o no y en caso de ser incorrecto dime cuales son los fallos cometidos
Crea una tabla sobre [tema]: Concepto 1 | Concepto 2 | Concepto 3 . (Por ejemplo: Crea una tabla sobre el antiguo régimen: periodo temporal | aspectos clave | personajes relevantes) No vale el ejemplo
Escribe [número] preguntas de opción múltiple con una respuesta correcta y [número] respuestas distractoras incorrectas. Las respuestas han de estar etiquetadas como A, B,... Cada respuesta debe incluir una explicación. Tema: [insertar tema]
Escribe [número] preguntas cortas. Tema: [insertar tema]
Escribe [número] preguntas de verdadero o falso Tema: [insertar tema]
Genera [numero] frases en [idioma] con un espacio en blanco para rellenar con un verbo en su forma correcta. Las frases irán numeradas de la 1 en adelante. Indica posteriormente un listado con las soluciones dispuestas en orden distinto y numeradas de la a en adelante.
12. Chat GPT aplica censura a ciertos temas. Investiga qué tipo de temática es bloqueada.
13. Muchas veces algunas preguntas en relación a ciertos temas son censuradas porque el prompt no ha sido bien planteado. Por ejemplo, el Chat bloqueó la siguiente petición: Hazme un resumen del libro "Mi lucha" de Adolf Hitler. Supongamos que esta pregunta está en relación a un trabajo de historia, pero el chat lo censura porque observa connotaciones antisemitas. En realidad, argumentando el prompt adecuadamente podemos conseguir que nos responda.
Realiza una pregunta en relación a un tema restringido (sin ánimo delictivo) cuya respuesta sea denegada. Inserta en tu
argumenta un prompt que obtenga respuesta.
HERRAMIENTAS DE GENERACIÓN DE TEXTO
Son numerosas las herramientas de generación de texto, te mostramos mas las relevantes. Puedes hacer clic en cada una para acceder:
Bard de Google - Chatbot conversacional general.
ChatGPT - Chatbot conversacional general.
Bing Chat - Chatbot conversacional general
Claude - Chatbot conversacional general
Canva - Escritura mágica puedes producir resúmenes a partir de tus textos, además de generar nuevos contenidos mediante prompts.
Chat Sonic - Chat conversacional, te proporciona links de referencia.
ChatPDF - Chat de texto que te permite interactuar con el contenido de un documento pdf.
Conker - Herramienta de generación de texto que te permite crear cuestionarios con IA.
Consensus - Chat de texto que te permite interactuar y encontrar información en trabajos de investigación.
Elicit - Chat de texto que te permite interactuar y encontrar información en trabajos de investigación.
Humata - Chat de texto que te permite interactuar con el contenido de un documento pdf.
Piggy - Genera historias, resúmenes y preguntas y respuestas con imágenes.
Wisdolia - Genera flashcards de un vídeo, artículo o pdf y te ofrece un feedback.
AI Document Generation: crea powerpoints en segundos.
Megaprofe: recursos para profesores.
Magic School: todo tipo de herramientas para la generación de contenidos para la docencia.
Poe: ofrece respuestas rápidas y precisas a las preguntas de los usuarios
Mistral: para programación y negocios.
Gemini: el ChatGPT de Google.
Llama: el ChatGPT de Meta -propietaria de Facebook, WhatsApp e Instagram-.
Grok: similares a ChatGPT.
AI Findy, Replicate:Repositorios con miles de herramientas que usan IA de texto
ACTIVIDAD
14. Como verás, no todo es Chat CGP. Investiga las aplicaciones anteriores (compara la calidad de las respuestas en relación a un tema, contenidos, herramientas, etc). Si no tiene fácil acceso (sin necesidad de registrase o registro con cuenta Google) simplemente da una breve información de la aplicación
15. Da una valoración de las aplicaciones, indicando que aspectos positivos o negativos les ves. (La pregunta 15 la puedes incluir en la 14)
La generación de imágenes por inteligencia artificial (IA) y la generación de texto se enfrentan a retos únicos debido a la naturaleza inherente de los medios que manipulan. Aunque ambas tareas comparten algunas dificultades, la generación de imágenes presenta otras que no están tan acentuadas en la generación de texto. Por ejemplo:
Las imágenes son intrínsecamente más complejas que el texto. Una imagen puede contener una enorme cantidad de información en una sola vista, incluyendo colores, texturas, formas, y la relación espacial entre los objetos. Capturar y generar esta complejidad requiere que la IA comprenda y procese una cantidad masiva de detalles visuales.
Mientras que el lenguaje tiene reglas de gramática y sintaxis relativamente claras, incluso si es complejo y lleno de excepciones, las imágenes pueden ser mucho más ambiguas en cuanto a su interpretación. Por ejemplo, una mancha en una imagen podría ser interpretada de muchas maneras diferentes, dependiendo del contexto. Esta ambigüedad hace que sea más difícil para la IA generar imágenes que tengan un significado claro y que sean interpretadas de manera consistente por diferentes espectadores.
Crear imágenes que parezcan realistas y coherentes es un gran desafío. En la generación de texto, las palabras incorrectas pueden a veces pasar desapercibidas o ser interpretadas como errores tipográficos o de estilo. Sin embargo, en las imágenes, las inconsistencias visuales (como proporciones incorrectas, iluminación inadecuada, o texturas erróneas) son fácilmente perceptibles y pueden hacer que una imagen generada por IA parezca irreal o extraña.
Aunque tanto la generación de texto como la de imágenes requieren creatividad, crear imágenes que sean tanto únicas como atractivas visualmente presenta retos especiales. La IA debe aprender a balancear la innovación con la familiaridad, generando imágenes que sorprendan y deleiten sin caer en lo absurdo o incomprensible.
La generación de imágenes suele requerir más recursos computacionales que la generación de texto. Esto se debe a la alta resolución y a la riqueza de detalles presentes en las imágenes, lo que significa que las redes neuronales necesitan procesar y generar una gran cantidad de datos para cada imagen. Esto puede limitar la velocidad de generación y aumentar el coste de las operaciones.
Aunque este reto también afecta a la generación de texto, en el ámbito de la imagen es particularmente delicado debido a la facilidad con que se pueden crear y difundir visualmente obras de arte, fotografías y otros contenidos protegidos por derechos de autor. La generación de imágenes que imitan estilos de artistas específicos o que recrean imágenes protegidas puede plantear problemas legales y éticos complejos.
EL LÍDER DE LA GENERACIÓN DE IMÁGENES
Eso sí, se trata de un triunvirato:
Veamos cómo podemos exprimir a estos generadores de imágenes.
El primer problema que nos encontramos al intentar pedirle lo que queremos, es que no tenemos ni los conocimientos artísticos necesarios para ello, ni tampoco aquellas instrucciones con las que la herramienta proporciona mejores resultados.
Por ejemplo, ¿serías capaz de describir esta imagen para intentar generar una parecida, que mantenga el mismo ambiente y estilo fotográfico?
Yo, desde luego que no.
Para casos así, podemos utilizar herramientas que ya conocemos, como ChatGPT.
Ahora, voy a darle ese mismo prompt para que me genere una imagen. El resultado es este:
Como ves, hay algunos elemento que se comparten, pero todavía está lejos de parecerse mucho a la imagen original.
Sigamos pidiendo cosas:
Ojito con la respuesta:
La imagen presenta una figura femenina de pie que evoca la estatua de la libertad o una musa clásica, vestida con una túnica que cae en pliegues suaves, de colores que van del azul en la parte superior a un blanco crema en la parte inferior, y se mezclan con toques de amarillo y dorado. La figura sostiene en alto con su mano derecha un haz de luz que emite rayos en todas direcciones, principalmente hacia arriba y hacia la izquierda, creando un efecto de destello estelar.
La figura se encuentra sobre una base o pedestal marrón oscuro, que le da la apariencia de una estatua sobre un pedestal. El fondo de la imagen muestra un cielo dramático y expresionista con nubes voluminosas y un rango de colores que transita desde azules claros cerca del centro a tonos más oscuros y púrpuras en los bordes. Sobre la cabeza de la figura, se encuentra la palabra “COLUMBIA” en grandes letras de un estilo de fuente que recuerda al Art Deco, con un efecto de cristal translúcido y bordes que refractan la luz del fondo, dando la sensación de estar suspendidas en el aire. Los colores del texto y el cielo se combinan para crear un suave efecto de arcoíris que cruza horizontalmente la imagen.
Detalles técnicos para una fotografía similar:
Iluminación: La iluminación principal debe ser suave y difusa, posiblemente utilizando una luz suave o una caja de luz colocada ligeramente a la derecha de la cámara para imitar el haz de luz en la mano de la figura. Un reflector o una luz de relleno en el lado opuesto puede ayudar a equilibrar las sombras.
Lente: Una lente de distancia focal media (alrededor de 50mm en una cámara de formato completo) podría ser adecuada para mantener las proporciones correctas de la figura y el fondo.
Apertura: Una apertura moderada (por ejemplo, f/8) dará una profundidad de campo suficiente para mantener la figura y las letras enfocadas, mientras que el fondo de las nubes puede permanecer ligeramente desenfocado para añadir profundidad.
Velocidad de obturación: Dependiendo de la intensidad de la luz artificial y natural, una velocidad de obturación más rápida podría ser necesaria para capturar los detalles sin sobreexponer la fuente de luz principal.
ISO: Mantener el ISO lo más bajo posible (ISO 100 o 200) para evitar el ruido y garantizar la calidad de la imagen.
Postproducción: En el postprocesado se puede mejorar la imagen ajustando la saturación para resaltar los colores, y añadiendo efectos de destello o rayo de luz para recrear el efecto de la luz que emana de la mano de la figura. Además, las letras pueden necesitar algún trabajo de edición gráfica para conseguir el efecto translúcido y refractante.
Estos ajustes son puntos de partida y pueden requerir ajustes finos dependiendo de las condiciones de disparo y el efecto deseado.
Aparte de lo que estamos aprendiendo de fotografía, ya tenemos un prompt mucho más específico para llegar a lo que queremos. Así que, nada, a copiar y pegar nuestro mega prompt (quitando los dos últimos párrafos):
Tenemos una imagen que sigue manteniendo elementos comunes con la imagen original, pero todavía muy alejado del ambiente que aparecía en la primera foto.
Además, nuestro prompt tiene una extensión considerable.
¿Entonces?
Aquí es donde yo quería llegar.
Aunque hemos aprendido cómo la IA reconoce y describe imágenes, crear una imagen de la nada, sin tener ninguna referencia, o con una referencia general, no es complicado. Pero pretender que una imagen creada desde cero alcance una similitud exacta con otra imagen sólo a partir de una descripción, por muy detallada que sea, es de momento, imposible.
¿Por qué?
Porque los detalles técnicos que hemos mencionado, aunque son fundamentales para un fotógrafo que busca recrear una imagen similar en la vida real, como la iluminación, la elección de la lente, la apertura, la velocidad de obturación y el ISO; cuando se genera una imagen con inteligencia artificial, sirven solo como guía conceptual para el estilo y la calidad de la imagen, pero no se aplican de la misma manera que en la fotografía real.
Dado que la IA no utiliza una cámara física, la interpretación de estos detalles es abstracta y se centra en imitar el aspecto visual que esos ajustes técnicos producirían en una fotografía.
Por ejemplo, una «iluminación suave y difusa» en la IA se traduce en una imagen sin sombras duras, mientras que una «apertura moderada» se interpreta como una imagen con un enfoque equilibrado en el sujeto y el fondo. Aunque la IA intenta replicar el efecto de estos parámetros, no se ajustan en el sentido tradicional de la fotografía.
La imagen generada intenta reflejar la estética y la atmósfera descritas en tu solicitud, teniendo en cuenta la narrativa visual que los detalles técnicos sugieren, pero nunca será tan parecida a la original como te gustaría.
Ten en cuenta que estamos hablando de crear una imagen basándose en otra.
Donde sí que se obtienen resultados muy buenos es en el caso de crear algo parecido a lo que tenemos en mente.
Ahora que tus expectativas están donde deben, porque ya conoces sus limitaciones, veamos los criterios más importantes que debemos seguir para generar imágenes útiles:
Descripción del concepto visual.
Características clave.
Orientación y composición.
Estilo o atmósfera.
Detalles específicos.
Cualidades emocionales.
Tamaño y resolución.
Contexto.
Repasemos cada uno de estos puntos con un ejemplo concreto: quiero llegar a una imagen que pueda usar para construir un cómic de las aventuras y desventuras de los animales callejeros.
Crea una imagen de un perro asustando a un gato [criterio 1].
¿Tienes ya una imagen visual?
No le hemos dado ninguna indicación más, así que ha generado lo primero que le ha parecido. El gato no parece darse por aludido, mucho menos si el atacante es un Yorkshire.
Ahora, vamos a establecer algunos elementos clave, como las razas y algo de actitud.
Crea una imagen de un perro asustando a un gato. El perro es un bulldog, tiene un polo rojo se está riendo. El gato es siamés y está escapando. [criterios 2 y 6]
Mucho mejor, ¿no?
Vamos a añadir ahora, algún detalle específico [criterio 5] como la localización de la imagen, para que construya el fondo, y también un estilo concreto [criterio 4].
Crea una imagen de un perro asustando a un gato. El perro es un bulldog, tiene un polo rojo se está riendo. El gato es siamés y está escapando. El fondo de la imagen es un callejón de Nueva York. Estilo caricatura.
Ya ves, el enorme cambio que se produce.
Si no controlas, como yo, qué estilos de dibujo, corrientes pictóricas (realismo, abstracción, surrealismo,…) o incluso técnicas dentro de cada estilo (acuarela, óleo, gouache, carboncillo, acrílico,…), siempre puedes preguntarselo a ChatGPT y pedirle un pequeño ejemplo de cada uno.
Sigamos refinando nuestro prompt con indicaciones sobre la orientación y/o la composición [criterio 3].
Crea una imagen de un perro asustando a un gato. El perro es un bulldog, tiene un polo rojo se está riendo. El gato es siamés y está escapando. El fondo de la imagen es un callejón de Nueva York. Estilo caricatura. Ángulo cenital, la vista está centrada en la calle.
Como ves, ya «la cámara» no se ha situado a pie de calle, sino sobre los personajes.
Para que entiendas mejor los ángulos, son estos:
Vamos a añadir algo de contexto/historia [criterio 8] para aportar el estado de los edificios.
Crea una imagen de un perro asustando a un gato. El perro es un bulldog, tiene un polo rojo se está riendo. El gato es siamés y está escapando. El fondo de la imagen es un callejón de Nueva York. Estilo caricatura. Ángulo cenital, la vista está centrada en la calle. Los edificios que rodean a los personajes están muy deteriorados por el paso del tiempo.
No sé si te has fijado pero todas las imágenes que nos ha proporcionado son cuadradas, que es el formato por defecto de la herramienta. También aquí podemos pedir que nos ofrezca tamaños o relaciones de aspecto que nos interesen [criterio 7].
Mira.
Crea una imagen de un perro asustando a un gato. El perro es un bulldog, tiene un polo rojo se está riendo. El gato es siamés y está escapando. El fondo de la imagen es un callejón de Nueva York. Estilo caricatura. Ángulo cenital, la vista está centrada en la calle. Los edificios que rodean a los personajes están muy deteriorados por el paso del tiempo. La relación de aspecto debe ser 16:10.
Así, combinando estos ocho criterios, puedes ir guiando a la IA hasta obtener las imágenes que más se acercan a tu concepto visual.
Un último concepto que es importante entender es que todas las imágenes se crean desde cero, por lo que puedes darle el mismo prompt una y otra vez, y la IA NUNCA generará una imagen idéntica a la anterior.
Sin embargo, existe un pequeño hack que podemos aplicar.
Si al generador de la imagen le pides esto:
El seed o semilla, es un número que se utiliza para inicializar el algoritmo de generación de imágenes, algo así como el punto de partida. Y el Gen ID o Identificador Único de Imagen, es un código asignado a cada imagen generada por el algoritmo.
Es la única manera que tenemos de «acercarnos» o hacer referencia a una imagen que ha generado un algoritmo, para intentar que modifique algo. No va a mantener ni de lejos la imagen exacta con los cambios que le propones, pero va a mantener la esencia.
Con un golpe de vista, las dos imágenes comparten muchas cosas en común, sin embargo, si te fijas en los detalles, cambian muchas cosas.
Así es como funciona la generación de imágenes por inteligencia artificial.
Puedes acceder a DALLE3 -el último modelo disponible-, sin tener que pagar por ello desde aquí.
Nota:
Para acceder a la aplicación DALLE3, hay que hacerlo a través de Copilot con la cuenta de @g.educaand.es
El seed y el gen_ID no están accesibles desde Copilot
ACTIVIDAD
15. Crea un prompt para generar una imágen similar a estos ejemplos:
Y tenía corazón (Enrique Simonet)
Saturno devorando a su hijo ( Francisco de Goya)
Cosiendo la vela (Joaquín Sorolla)
Las señoritas de Avignon (Pablo Picasso)
16. Crea 4 rostros de personajes. Genera cada uno a estilo hiperrealista, dibujo animado y comic manga. Ve haciendo una secuencia de como va evolucionando conforme detallas el prompt.
17. Crea una historia con esos personajes y genera, al menos, una secuencia de 6 viñetas a modo de fotonovela.
18. Pasa las imágenes creadas en el ejercicio 16 por la aplicación Magnific
HERRAMIENTAS DE GENERACIÓN DE IMÁGENES
ClipDrop: numerosas utilidades IA para manipulación de imágenes, escalar, reiluminar, cambiar caras, rellenar huecos, eliminar objetos,…
Leonardo: generador de artes gráficas con bastante calidad, rápido y gratis. Especializado en creaciones visuales para proyectos digitales, revistas, videojuegos, etc.
Ideogram: creador de imágenes, gratis, cuyo punto fuerte es que incorpora textos coherentes con mejor precisión que el resto de herramientas.
Adobe Firefly: genera imágenes gratis muy naturales, añade o elimina objetos, transforma texto, y mucho más.
Piiixy: crea todo tipo de montajes con tus fotos, como avatares, memes, personajes, etc.
AI Findy, Replicate: Repositorios con miles de herramientas que usan IA de imágenes:
ACTIVIDAD
19. Prueba las aplicaciones mencionadas, genera algún contenido si te es posible y da una valoración.
20. Genera una hoja de cálculo de 3 hojas como la del ejemplo adjunto y rellena las celdas con los datos de Toolify.AI atendiendo a los siguientes aspectos:
Vas a establecer una doble clasificación, una atendiendo al ranking general y otra atendiendo al mayor porcentaje de la tasa de crecimiento. Esto lo harás en varios campos (mes, categorías y regiones), cada uno de ellos en hojas independientes.
Toolify te indica de qué va cada aplicación. Investiga los contenidos que te resulten más interesantes y adjunta los trabajos a tu web, determinando el proceso y una valoración de la aplicación.
Como verás, cada país tiene sus preferencias pero hay patrones comunes. Intenta hacer una valoración
Hay que valorar un mínimo de 5 aplicaciones por categoría
Las herramientas de generación de video permiten la creación y edición de contenido audiovisual de manera automatizada a través de IA. Estas aplicaciones son capaces de transformar imágenes estáticas en videos, convertir texto en animaciones, mejorar la resolución de los videos y producir contenido personalizado.
En el contexto educativo, estas herramientas ofrecen valiosas oportunidades para la elaboración de materiales audiovisuales que ayuden a explicar conceptos complejos. Educadores y estudiantes pueden hacer uso de estas aplicaciones para crear animaciones educativas, visualizaciones de experimentos científicos o análisis interactivos de textos literarios, facilitando así un aprendizaje más atractivo y accesible.
Como ejemplo, vamos a generar un avatar animado, mediante el uso de varias herramientas de IA generativa.
La imagen, para posteriormente generar el avatar, puede ser propia o de cualquier otra persona o personaje. En nuestro caso, ha sido creada conLeonardo.AI
Para el audio, hemos escogido la aplicación ElevenLabs, ya que es capaz de sintetizar cualquier voz de la que dispongamos fichero de audio, ya sea la del propio personaje, nuestra propia voz (como es el caso), o una voz propuesta por la propia herramienta. En ElevenLAbs, cargas el texto y le pides que genere un audio, leyendo ese texto con la voz que hayas sintetizado. Una vez generado el fichero, lo descargas.
Por último, el video (Avatar animado) se ha generado con D-ID, al que alimentaremos por un lado con la imagen creada con Leonardo.AI y el fichero de audio generado con Eleven Labs. Le pedimos que genere la animación y este es el resultado, haz clic en la imagen para ver la animación:
ACTIVIDAD
21. Genera un avatar despidiéndote del curso y de tus compañeros.
La eficacia de cualquier herramienta la determina la pericia de quién la usa. Una simple búsqueda de información en Google puede ser infructuosa si no sabemos plantear criterios de búsqueda adecuados o analizar y filtrar las fuentes. Con las aplicaciones de IA ocurre tres cuartos de lo mismo, de hecho, habéis sufrido en vuestras carnes la impotencia de no dar con el prompt adecuado que genere el objetivo de vuestro propósito.
Estamos en los albores de la IA, ya lo sabéis, cuya curva de crecimiento exponencial es tan desmesurada que desborda cualquier hipótesis predictiva a corto y medio plazo, generando con ello una sensación de incertidumbre a causa de la bipolaridad de sus consecuencias.
Supongo que a lo largo de este trimestre todo esto os ha quedado claro. Otra cosa es el rendimiento que somos capaces de extraerle a las aplicaciones, por eso, lo que resta de curso lo vamos a invertir en trabajar estrategias para sacarle el máximo partido a las aplicaciones.
He resaltado el final del párrafo para enfatizar el plural. ¿Con qué propósito?. Como dijo Michael Jordan: " el talento gana partidos, pero el trabajo en equipo y la inteligencia gana campeonatos". No os podéis imaginar el daño que hace una buena aplicación al ingenio, a la creatividad y al espíritu crítico. Pongamos por caso wikipedia. Cuántos trabajos se han entregado de y pico de folios sin leerlos por la fé ciega que tenemos en una aplicación cuyos contenidos, en la mayoría de los casos, están subidos a esta plataforma colaborativa por ¡¡una persona cualquiera!!
Con todo esto, os quiero invitar a que no os limitéis/acomodéis al uso de una/pocas aplicaciones. Ya habéis comprobado que buenas aplicaciones tienen limitaciones, otras tienen incrementos de usuarios altísimos (por algo será) y cada día surgen nuevas de todo tipo.
Después de esta reflexión, creo que ya sabéis por dónde van los tiros. El 10 en este trimestre vendrá determinado por la demostración de ingenio y creatividad en el uso de aplicaciones y capacidad de análisis de los resultados, aplicados a la búsqueda de objetivos, necesidades y estrategias para CREAR UNA EMPRESA.
El desarrollo del proyecto deberá de incorporar evidencias de las fuentes (enlaces) y recursos utilizados (capturas). Recordad, ingenio, creatividad y capacidad de análisis, suma; sistema wikipedia (o similar), resta.