Distancia Google Normalizada
Introducción
La distancia google es una medida “semántica” que es calculada a partir de los resultados del motor de búsqueda Google. Distancia semántica es una forma de expresar cuantitativamente la diferencia entre el significado de un concepto y otro.
Se basa en la siguiente función:
"x" e "y" son 2 conceptos de los cuales se quiere medir que tan relacionados están entre sí. Las funciones f(x) y f(y) representan la cantidad de resultados(hits) encontrados por Google tanto para "x" como para "y" por separado. La función F(x,y) representa los hits para ambos términos en simultáneo y para completar "M" representa la cantidad de páginas indexadas por el buscador.
Axiomas y límites
La función debe cumplir una serie de axiomas y límites.
La distancia de un concepto consigo mismo debe ser cero.
La distancia de un concepto con su complemento (Conjunto imaginario de conceptos que no tienen absolutamente ninguna relación) debe ser infinito. El límite de la distancia entre un concepto y otro debe tender a cero a medida que el segundo concepto sea más semánticamente similar al primero. El límite de la distancia entre un concepto y otro debe tender a infinito a medida que el segundo concepto sea más semánticamente distinto del primero o dicho de otra manera se acerque más a su complemento.
Cómo funciona
Primero se aclara que los logaritmos son simplemente para normalizar las variables porque en realidad la distribución normal corresponde a los logaritmos de las variables, no a las variables.
Como tenemos una fracción tenemos 3 posibles resultados en función del numerador y el denominador.
Si el denominador tiende a ser más grande que el numerador, la fracción tiende a cero.
Si el numerador tiende a ser más grande que el denominador, la fracción tiende a infinito.
Analizando el numerador
Tenemos 2 términos y .Obviando los logaritmos el numerador va a devolver en el caso del primer término el número mayor de hits que haya devuelto una palabra por separado y luego va a restar la cantidad de hits en simultáneo.
En este caso hay 2 posibilidades, si una palabra aparece significativamente más que otra implica que no van a aparecer tan seguido en simultáneo, por lo tanto el resultado del numerador va a tender a infinito.
En el otro caso significa que el los términos aparecen la mayoría de la veces en simultáneo por lo tanto la diferencia entre f(x), f(y) y f(x,y) va a ser mínima y el numerador tendera a cero.
Analizando el denominador
Nuevamente tenemos 2 términos, para el caso de que el numerador tienda a cero implica que toda la fracción tiende a cero, pero para el caso de que el numerador tienda a infinito el denominador va a suavizar (normalizar) la fracción ya que tanto "M" como su logaritmo son números muy grandes en relación al resto de los elementos de la fracción.
En resumen
Si los términos aparecen muchas veces en simultáneo, implica que están altamente relacionados y su función tenderá a cero. Si los términos aparecer separados pero pocas veces en simultáneo implican que son semánticamente distantes y su función tenderá a infinito.