Es una rama de la inteligencia artificial que se centra en la creación de modelos y sistemas que pueden generar datos nuevos y originales.
A diferencia de la inteligencia artificial tradicional, que se enfoca en el reconocimiento de patrones en los datos existentes, la IA Generativa utiliza modelos generativos para producir nuevos datos que se parecen a los datos de entrenamiento.
Los modelos generativos pueden ser utilizados para crear contenido de medios, como imágenes, música y texto.
Por ejemplo, se pueden utilizar modelos generativos para crear imágenes que se parezcan a las imágenes de entrenamiento, o para generar música que suene como la música de entrenamiento. También se pueden utilizar para la creación de lenguaje natural, como en la generación de diálogos de chatbot y la creación de historias.
A través de un buscador que nos devuelve un número enorme de respuestas, que ya estaban ahí. Es como una gran Biblioteca de Alejandría con imágenes.
ChatGPT/Gemini/Claude te devuelve un único resultado y ¡excepcionalmente bueno!
Etiquetas: Para que estas tecnología funcionen y sean resultantes, necesitamos muchas personas diciéndole qué cosas están bien y qué cosas están mal.
Para explicar cómo funciona el chat GPT, me referiré a todos los modelos de inteligencia artificial de lenguaje a gran escala, también conocidos como Modelos de Lenguaje a Gran Escala (LLM).
Todas las herramientas de las que vamos a hablar funcionan de manera similar. El objetivo de Chat GPT es buscar en su base de datos todas las posibilidades que comienzan con "El sentido de la vida es" e intentar calcular la probabilidad de la siguiente palabra:
En teoría, la máquina seleccionará la palabra con la mayor probabilidad, pero hay un parámetro en estos modelos llamado "temperatura" que da la sensación de que la máquina está generando cosas nuevas.
En lugar de dar la respuesta obvia, a veces el modelo seleccionará algo aleatorio para dar originalidad y evitar que dé la misma respuesta repetidamente.
Si un estudiante le pide a GPT que cree un trabajo, cada uno de los 30 alumnos recibirá respuestas diferentes debido al parámetro de temperatura (variabilidad)
Sin embargo, es importante tener en cuenta que la probabilidad más alta no siempre es la respuesta correcta. Si la máquina selecciona una respuesta errónea, puede provocar confusiones y errores en el trabajo final (alucinaciones). Por lo tanto, es importante revisar y verificar las respuestas generadas por el modelo.
La IA Generativa son programas que permiten crear textos, imágenes, sonidos,... como si los hubiera creado un humano.
Un modelo de lenguaje es un modelo estadístico o computacional que comprende y genera texto en lenguaje natural, utilizando el aprendizaje automático para predecir la siguiente palabra en una oración. Estos modelos se entrenan con grandes cantidades de texto para aprender cómo funcionan las palabras en diversos contextos.
Modelos de lenguaje basados en reglas: Utilizan reglas gramaticales predefinidas, pero tienen limitaciones en la gestión de ambigüedades y variaciones del lenguaje.
Modelos de lenguaje probabilísticos o de aprendizaje automático: Se basan en el análisis estadístico de textos para aprender patrones del lenguaje, utilizando modelos n-grama, redes neuronales recurrentes (RNN) y modelos transformer.
Modelos probabilísticos analizan grandes volúmenes de texto para aprender patrones lingüísticos.
Los modelos n-grama son útiles para predecir la probabilidad de una palabra que sigue a otra en una oración.
Las Redes Neuronales Recurrentes (RNNs) mejoran esta predicción al considerar palabras previas.
La arquitectura de Transformers ha superado las limitaciones de las RNNs, mejorando la comprensión del lenguaje y la adaptación a diversas tareas. Pondera diferentes partes del texto, aplicación de bloques atencionales y de procesamiento.
Los modelos de lenguaje son herramientas fundamentales en el campo de la inteligencia artificial y el procesamiento del lenguaje natural, permitiendo a las computadoras comprender, interpretar y generar lenguaje humano de manera eficaz. La evolución de estos modelos refleja avances significativos en la capacidad de las máquinas para interactuar con textos humanos, ofreciendo aplicaciones que van desde la traducción automática hasta la generación de texto y la comprensión lectora.
Los modelos basados en reglas representan uno de los enfoques más tempranos en el procesamiento del lenguaje natural. Estos modelos funcionan mediante la implementación de conjuntos de reglas gramaticales y sintácticas predefinidas por expertos lingüistas. Aunque son eficaces para aplicaciones con estructuras lingüísticas bien definidas, enfrentan limitaciones significativas:
Gestión de la Ambigüedad: Tienen dificultades para manejar ambigüedades lingüísticas inherentes al lenguaje humano, dado que múltiples interpretaciones de una frase pueden ser gramaticalmente correctas.
Flexibilidad y Escalabilidad: La necesidad de definir explícitamente reglas para cada posible construcción lingüística limita su adaptabilidad y escalabilidad, especialmente en lenguas con alta variabilidad y riqueza expresiva.
Con la llegada de técnicas de aprendizaje automático, los modelos de lenguaje probabilísticos han tomado la delantera, ofreciendo una forma de aprender patrones lingüísticos directamente de grandes volúmenes de texto. Estos modelos se basan en el análisis estadístico para predecir elementos lingüísticos, tales como:
Modelos N-Grama: Utilizan la estadística de secuencias de palabras (donde "n" representa el número de palabras consideradas) para predecir la siguiente palabra en una secuencia. Aunque útiles para capturar patrones locales de co-ocurrencia de palabras, su capacidad para manejar dependencias a largo plazo es limitada.
Redes Neuronales Recurrentes (RNNs): Mejoran la capacidad predictiva de los modelos n-grama al considerar información de palabras previas en secuencias más largas, lo que permite una mejor gestión de las dependencias contextuales. Sin embargo, las RNNs enfrentan desafíos con secuencias muy largas, debido a problemas como el desvanecimiento y la explosión del gradiente.
Modelos Transformer: Superan las limitaciones de las RNNs mediante el uso de mecanismos de atención, que permiten al modelo ponderar diferentes partes de la entrada de texto de manera más eficaz. Esto mejora significativamente la comprensión del contexto y la capacidad de manejar dependencias a largo plazo, resultando en avances notables en tareas de PLN como traducción automática, generación de texto y análisis de sentimientos.
La transición desde modelos basados en reglas hacia modelos probabilísticos y, en particular, hacia la arquitectura de Transformers, marca un hito en el desarrollo de tecnologías de procesamiento del lenguaje natural. Estos avances no solo han mejorado la capacidad de las máquinas para comprender y generar texto de manera coherente y relevante, sino que también han ampliado el alcance de aplicaciones prácticas, abriendo nuevas posibilidades en la interacción entre humanos y computadoras. La continua investigación y desarrollo en este campo prometen futuras innovaciones que podrían transformar aún más nuestra interacción con la tecnología.
Asistentes virtuales: Como Siri, Google Assistant o Amazon Alexa.
Traducción automática: Como Google Translate o DeepL.
Corrección de texto: En herramientas de corrección ortográfica y gramatical.
Generación de texto: En aplicaciones como ChatGPT, Gemini, Claude o Copilot.
Autocompletado de texto: En teclados de smartphones y recomendaciones de búsqueda.
ChatGPT: De OpenAI, notable por su capacidad multimodal y por ser más creativo y colaborativo. Funciona en Microsoft (Bing --> Copilot) .
Gemini: Google tenía LaMDA, PaLM, en su unión lanzaron "Bard". Posteriormente unieron los equipos de Google Brain y DeepMind para lanzar Gemini.
LLaMA: De Meta, destacado por su entrenamiento en una amplia gama de datos de texto en múltiples idiomas.
Claude: De Anthropic, muy parecido al lenguaje natural. Es una empresa fundada por algunos ingenieros de ChatGPT y Google.
Qwen: De Aibaba, en la que está basado DeepSeek.
Objetivo final: IGA, Inteligencia Artificial General
Generative Pre-Trained Transformer: Transformador generativo preentrenado
¿Y qué significan los términos de Generative Pre-Trained Transformer? Este tipo de modelos de inteligencia artificial, por lo general, son entrenados en grandes cantidades de texto, lo que le gana el apellido de preentrenada. Se construyen utilizando bloques de la arquitectura Transformer, un tipo de red neuronal que aprende del contexto, por lo que puede ofrecer datos secuenciales basados en relaciones.
¿Qué significa el número junto a las siglas GPT? Hace referencia a la versión del modelo de la que estemos hablando. Mientras más alto el número, más nueva será. Así, tenemos que GPT-2 es inferior en capacidades a GPT-3, y este último lo será con respecto a GPT-4 (1o), GPT o1, o3; que son los modelos de razonamiento avanzado.
¿Qué significa el término chat en ChatGPT? Ahora que hemos desglosado el apellido de ChatGPT, es momento de comprender qué significa el término chat que lleva como nombre la plataforma más popular del momento. OpenAI lo ha escogido deliberadamente, y revela la función más célebre del conocido chatbot: hablar.
ChatGPT significa que el modelo puede responder a las preguntas de los usuarios utilizando un lenguaje natural y conversacional. Todo esto, claro, a través del modelo transformador generativo preentrenado. El resultado es casi como si estuvieses teniendo una conversación vía texto con otra persona en el mundo.
Por supuesto, a diferencia de una persona, ChatGPT no es consciente de lo que dice y tampoco entiende realmente el contexto del texto. Simplemente utiliza un sistema de probabilidades, patrones y relaciones recogidas durante su preentrenamiento para armar una frase de la manera más natural posible.
Las inteligencias artificiales aprenden a través de procesos de entrenamiento basados en datos, utilizando modelos matemáticos como redes neuronales. Estos sistemas son capaces de identificar patrones, abstraer conceptos y desarrollar criterios sin intervención humana directa. Proceso:
Las IAs se entrenan con conjuntos masivos de datos (imágenes, textos, audios, etc.).
Cada dato incluye una etiqueta que le permite a la IA identificar relaciones y patrones. Por ejemplo:
Imagen de un melanoma → "Esto es un melanoma".
Imagen de un lunar → "Esto no es un melanoma".
Con millones de ejemplos, la IA ajusta sus parámetros internos para que, al recibir un nuevo dato, pueda clasificarlo correctamente.
Las IAs reducen miles de características de un objeto (por ejemplo, colores, formas) en un espacio conceptual más pequeño.
Este espacio puede tener "dimensiones" abstractas que nosotros no siempre entendemos:
Ejemplo: Una IA que analiza caras podría identificar "dimensiones" como:
Color del cabello (rubio o moreno).
Forma de la cabeza (redonda o alargada).
Rasgos difíciles de verbalizar, como "similaridad con una expresión humana".
Las IAs no se les enseñan reglas explícitas; aprenden a deducirlas.
Ejemplo práctico: Una IA de detección facial no sabe qué es una cara, pero aprende patrones de luz y sombra que suelen formar ojos, nariz y boca.
Cuando falla, lo hace como nosotros con pareidolias: interpreta patrones donde no hay.
Con IA generativa como MidJourney o DALL·E, la máquina crea imágenes nuevas combinando conceptos aprendidos:
"Un barco al estilo cubista": La IA mezcla elementos de los espacios "barco" y "cubismo".
Los resultados no son copias; son creaciones originales dentro de los límites de su criterio aprendido.
Errores de interpretación: Las IAs todavía cometen errores.
Falta de explicabilidad: Aunque la IA puede acertar, no siempre puede explicar por qué lo hace.
Ajustes humanos: Se necesita intervención humana para ajustar parámetros y verificar resultados.