¿Como funciona Perplexity ?
La perplejidad funciona como una medida de cuán bien un modelo de lenguaje puede predecir o generar una secuencia de palabras, evaluando la probabilidad que asigna el modelo a esa secuencia. Para entender cómo funciona la perplejidad, es útil desglosarla paso a paso.
Paso 1: ¿Qué mide la perplejidad?
La perplejidad mide la "sorpresa" o "incertidumbre" que un modelo de lenguaje experimenta al predecir una secuencia de palabras. Si un modelo tiene una baja perplejidad, significa que ha aprendido muy bien el lenguaje y puede predecir las palabras siguientes con alta probabilidad. Si tiene una perplejidad alta, significa que el modelo está "sorprendido" por la secuencia y tiene dificultades para hacer predicciones precisas.
Paso 2: ¿Cómo se calcula la perplejidad?
Para una secuencia de palabras w1,w2,...,wNw_1, w_2, ..., w_Nw1,w2,...,wN (donde NNN es el número de palabras en la secuencia), la perplejidad se calcula como:
Perplejidad=2H(p)\text{Perplejidad} = 2^{H(p)}Perplejidad=2H(p)
donde H(p)H(p)H(p) es la entropía de la distribución de probabilidades del modelo sobre las palabras de la secuencia. La entropía mide la cantidad de incertidumbre en las predicciones del modelo.
Formalmente, la perplejidad también puede expresarse como:
Perplejidad=(∏i=1NP(wi∣w1,w2,...,wi−1))−1N\text{Perplejidad} = \left( \prod_{i=1}^{N} P(w_i | w_1, w_2, ..., w_{i-1}) \right)^{-\frac{1}{N}}Perplejidad=(i=1∏NP(wi∣w1,w2,...,wi−1))−N1
Donde:
P(wi∣w1,w2,...,wi−1)P(w_i | w_1, w_2, ..., w_{i-1})P(wi∣w1,w2,...,wi−1) es la probabilidad que el modelo asigna a la palabra wiw_iwi dada la secuencia de palabras previas w1,w2,...,wi−1w_1, w_2, ..., w_{i-1}w1,w2,...,wi−1.
La multiplicación de estas probabilidades indica cuán probable es la secuencia completa de palabras.
El exponente −1N-\frac{1}{N}−N1 normaliza el valor, para obtener una medida de la perplejidad promedio por palabra.
Paso 3: Interpretación de la perplejidad
Perplejidad baja: Si la perplejidad es baja, significa que el modelo asigna altas probabilidades a las palabras correctas en la secuencia. El modelo está "menos sorprendido" por las palabras que aparecen, lo que indica que ha aprendido bien las dependencias del lenguaje y las relaciones entre palabras.
Perplejidad alta: Si la perplejidad es alta, significa que el modelo tiene una alta incertidumbre sobre las palabras que siguen en la secuencia. Esto generalmente ocurre cuando el modelo no tiene suficiente información sobre el contexto o cuando las palabras son inusuales o inesperadas en el contexto dado.
Paso 4: Relación con la probabilidad
Un modelo de lenguaje tiene una probabilidad asociada con cada palabra que predice. Cuanto mayor sea la probabilidad que el modelo asigna a una palabra en particular, menor será la perplejidad. Así que una baja perplejidad implica que el modelo puede predecir bien las palabras que siguen, mientras que una perplejidad alta indica que el modelo no está seguro de qué palabra es la siguiente.