La perplejidad (en inglés, perplexity) es una métrica que se utiliza en el campo del procesamiento del lenguaje natural (PLN) para evaluar modelos de lenguaje. En términos sencillos, mide cuán bien un modelo predice una secuencia de palabras.

Más específicamente, la perplejidad mide la incertidumbre o la "sorpresa" que el modelo experimenta al predecir la siguiente palabra en una secuencia dada. Cuanto más baja es la perplejidad, mejor es el modelo, ya que indica que el modelo es más capaz de predecir correctamente las palabras.

Matemáticamente, la perplejidad se define como la raíz enésima de la probabilidad inversa de la secuencia de palabras, donde "n" es el número de palabras en el conjunto de prueba. Formalmente:

Perplejidad=2H(p)\text{Perplejidad} = 2^{H(p)}Perplejidad=2H(p)

donde H(p)H(p)H(p) es la entropía del modelo, que mide la cantidad promedio de información que el modelo necesita para predecir cada palabra en la secuencia.

En resumen:

Es comúnmente utilizada para comparar diferentes modelos de lenguaje, ya que refleja cuán "bien" un modelo entiende o modela un idioma.