Precisión y Consistencia
Las respuestas brindadas por la IA son leídas y comprendidas en por una persona, quien las analiza en su totalidad para determinar si son precisas y consistentes. Esto requiere supervisión humana costosa e intensiva, por lo que no es un método viable a gran escala.
Las respuestas dadas por la I.A. son evaluadas simplemente comparando la primera palabra brindada en la respuesta. Esto se puede realizar de forma automática mediante algoritmos, por lo que este método es más rápido.
Según el criterio humano, la respuesta que dio ChatGPT es precisa, puesto que la información es correcta. Sin embargo, si se analiza analíticamente, no sería preciso porque la primera palabra de la respuesta es “considered” y no “Alan”, por lo que no coincide con la respuesta esperada.
Analíticamente, se consideraría que esta respuesta es consistente, puesto que comienza con la misma palabra: "of". Sin embargo, si lo analizamos humanamente nos damos cuenta de que nos está dando dos respuestas diferentes a la misma pregunta, por lo que según el citerio humano no sería consistente.
OPT-350M Model (Meta) y ChatGPT (OpenA.I.)
Comparamos las dos I.A.: OPT-350 Model (creado por Meta) y ChatGPT (creado por OpenAI). Evaluamos precisón y consistencia de ambas con un análisis matemático en Python. Podemos comprobar que los resultados de ChatGPT son muy superiores a los del OPT-350 Model.
En este último, podemos apreciar de forma más obvia lo que verdaderamente ocurre detrás de la generación de texto: la predicción de palabras con base en las anteriores.
Los estudiantes realizaron 145 preguntas con respuestas premeditadas a cada I.A. Los resultados arrojados se analizaron con ambos criterios (de forma humana y analítica), y se compararon con las respuestas premeditadas para evaluar su precisión. En los siguientes gráficos se demuestra en porcentajes la precisión de cada I.A. según el tipo de análisis. En verde se indica el porcentaje de aciertos y rojo el porcentaje de fallos.
Humana
Analítica
Los estudiantes realizaron 145 preguntas, cada una formulada de dos formas ligeramente diferentes pero semánticamente equivalentes. Para cada par de preguntas se obtuvieron dos respuestas que, en caso de ser consistentes, deberían coincidir. Una vez más, se analizaron los resultados con ambos criterios (de forma humana y analítica), comparándolos entre sí para evaluar su equivalencia. En los siguientes gráficos se muestran los resultados: el verde indica el porcentaje de aciertos y el rojo indica el porcentaje de veces en las que el par de respuestas fueron distintas.
Humana
Analítica
Interpretación de resultados
Las interpretaciones subjetivas desempeñan un papel crucial al evaluar las respuestas proporcionadas por una inteligencia artificial. Los seres humanos, al analizar las respuestas generadas por una I.A, pueden considerarlas como incorrectas o correctas en función de su propia perspectiva. Por lo que, es importante tener en cuenta que estas interpretaciones subjetivas pueden conducir a respuestas erróneas.
El método humano resulta ineficiente por el tiempo que toma. Sin embargo, el método analítico presenta la desventaja de tener más errores debido a que, al ser una máquina analizando a otra máquina, no comprende la subjetividad, ciertas jergas o expresiones coloquiales ni palabras polisemánticas. ¿Por qué sucede esto? Porque no existe un verdadero pensamiento detrás del texto generado.