Experimentos

Es importante saber que tan fiables son las Inteligencias Artificiales que utilizamos. Para eso, podemos analizar algunas de sus características.

En nuestro Club, analizamos dos:

Precisión y Consistencia

Si una I.A. tiene precisión, nos ofrece respuestas verídicas a la información que buscamos.

Si una I.A. es consistente, nos ofrece la misma información independientemente de cómo formulemos la pregunta.

Desgraciadamente, las I.A. actuales tienen limitaciones, y muchas veces carecen de precisión y de consistencia. Se lo enseñamos a continuación:

Chat GPT demostró consistencia al dar respuestas similares. Sin embargo, la respuesta es erronea, por lo que carece de precisón. La respuesta correcta era: Forrest Gump.

Chat GPT demostró precisión, pues ambas son fechas clave de la Independencia. Sin emabrgo, las respuestas son diferentes, por lo que carece de consistencia.

Pero...

¿Cómo podemos analizar su precisón y consistencia?

Humanamente

Las respuestas brindadas por la IA son leídas y comprendidas en por una persona, quien las analiza en su totalidad para determinar si son precisas y consistentes. Esto requiere supervisión humana costosa e intensiva, por lo que no es un método viable a gran escala.

Analíticamente

Las respuestas dadas por la I.A. son evaluadas simplemente comparando la primera palabra brindada en la respuesta. Esto se puede realizar de forma automática mediante algoritmos, por lo que este método es más rápido.

Humanamente, ¿cómo calificas esta respuesta?

Según el criterio humano, la respuesta que dio ChatGPT es precisa, puesto que la información es correcta. Sin embargo, si se analiza analíticamente, no sería preciso porque la primera palabra de la respuesta es “considered” y no “Alan”, por lo que no coincide con la respuesta esperada.

Analíticamente, ¿cómo se califica esta respuesta?

Analíticamente, se consideraría que esta respuesta es consistente, puesto que comienza con la misma palabra: "of". Sin embargo, si lo analizamos humanamente nos damos cuenta de que nos está dando dos respuestas diferentes a la misma pregunta, por lo que según el citerio humano no sería consistente.

Como podemos ver, a pesar de ser más eficientes, los métodos automáticos analíticos son muchas veces incapaces de evaluar de forma correcta la precisión y la consistencia al basarse únicamente las frases exactas y carecer de comprensión semántica del contexto. Por otra parte, los métodos humanos caen en la subjetividad y no son automatizables.

OPT-350M Model (Meta) y ChatGPT (OpenA.I.)

Comparamos las dos I.A.: OPT-350 Model (creado por Meta) y ChatGPT (creado por OpenAI). Evaluamos precisón y consistencia de ambas con un análisis matemático en Python. Podemos comprobar que los resultados de ChatGPT son muy superiores a los del OPT-350 Model.

En este último, podemos apreciar de forma más obvia lo que verdaderamente ocurre detrás de la generación de texto: la predicción de palabras con base en las anteriores.

Resultados de Precisión

Los estudiantes realizaron 145 preguntas con respuestas premeditadas a cada I.A. Los resultados arrojados se analizaron con ambos criterios (de forma humana y analítica), y se compararon con las respuestas premeditadas para evaluar su precisión. En los siguientes gráficos se demuestra en porcentajes la precisión de cada I.A. según el tipo de análisis. En verde se indica el porcentaje de aciertos y rojo el porcentaje de fallos.

Humana

Analítica

Resultados de Consistencia

Los estudiantes realizaron 145 preguntas, cada una formulada de dos formas ligeramente diferentes pero semánticamente equivalentes. Para cada par de preguntas se obtuvieron dos respuestas que, en caso de ser consistentes, deberían coincidir. Una vez más, se analizaron los resultados con ambos criterios (de forma humana y analítica), comparándolos entre sí para evaluar su equivalencia. En los siguientes gráficos se muestran los resultados: el verde indica el porcentaje de aciertos y el rojo indica el porcentaje de veces en las que el par de respuestas fueron distintas.

Humana

Analítica

Interpretación de resultados

Queremos algoritmos de lenguaje consistentes y precisos. Pero actualmente todavía carecemos de herramientas adecuadas para analizarlos.

Las interpretaciones subjetivas desempeñan un papel crucial al evaluar las respuestas proporcionadas por una inteligencia artificial. Los seres humanos, al analizar las respuestas generadas por una I.A, pueden considerarlas como incorrectas o correctas en función de su propia perspectiva. Por lo que, es importante tener en cuenta que estas interpretaciones subjetivas pueden conducir a respuestas erróneas.

El método humano resulta ineficiente por el tiempo que toma. Sin embargo, el método analítico presenta la desventaja de tener más errores debido a que, al ser una máquina analizando a otra máquina, no comprende la subjetividad, ciertas jergas o expresiones coloquiales ni palabras polisemánticas. ¿Por qué sucede esto? Porque no existe un verdadero pensamiento detrás del texto generado.

Page updated

Google Sites

Report abuse

Experimentos

Es importante saber que tan fiables son las Inteligencias Artificiales que utilizamos. Para eso, podemos analizar algunas de sus características.

En nuestro Club, analizamos dos:

Si una I.A. tiene precisión, nos ofrece respuestas verídicas a la información que buscamos.

Si una I.A. es consistente, nos ofrece la misma información independientemente de cómo formulemos la pregunta.

Desgraciadamente, las I.A. actuales tienen limitaciones, y muchas veces carecen de precisión y de consistencia. Se lo enseñamos a continuación:

Chat GPT demostró consistencia al dar respuestas similares. Sin embargo, la respuesta es erronea, por lo que carece de precisón. La respuesta correcta era: Forrest Gump.

Chat GPT demostró precisión, pues ambas son fechas clave de la Independencia. Sin emabrgo, las respuestas son diferentes, por lo que carece de consistencia.

Pero...

¿Cómo podemos analizar su precisón y consistencia?

Humanamente

Analíticamente

Humanamente, ¿cómo calificas esta respuesta?

Analíticamente, ¿cómo se califica esta respuesta?

Resultados de Precisión

Resultados de Consistencia

Queremos algoritmos de lenguaje consistentes y precisos. Pero actualmente todavía carecemos de herramientas adecuadas para analizarlos.

¿Te interesaría conocer más de clubes de ciencias México?