Estadísticas

Para acceder a las estadísticas del corpus, haga clic en el icono de información que aparece en la barra superior, a la derecha del título. 

Recuento general

Tamaño del lexicón

El número de lemas distintos es cercanos a 25,000 (sin hacer distinción entre mayúsculas y minúsculas, y excluyendo números y signos de puntuación). Sin embargo, teniendo en cuenta que suelen ser necesarias al menos 20 ocurrencias de una palabra para poder hacerse una idea de su comportamiento, el corpus contiene unos 2.046 lemas con una frecuencia mínima de 20. De estos, 994 son sustantivos comunes, 426 son verbos y 267, adjetivos. En el apartado de Descarga puede acceder a la lista de lemas y de tokens.

Tipos de texto (metadatos)

Para acceder a la frecuencia de cualquier metadato, haga clic en el icono de la derecha.

En la siguiente pantalla hay que especificar la frecuencia que se desea conocer: la frecuencia sobre el total de documentos (Structure frequency) o sobre el total de tokens (Token coverage). 

Por ejemplo, la variable Contexto presenta la siguiente distribución:

Porcentaje de documentos

Porcentaje de tokens

La frecuencia se muestra en forma de gráfico en la parte superior y en forma de tabla en la parte de abajo. Ambos resultados pueden descargarse en varios formatos.

Para calcular la frecuencia de cada metadato sobre un subcorpus en particular, seleccione el subcorpus en el menú correspondiente. Por ejemplo, los niveles de dominio se distribuyen de la siguiente manera en el subcorpus de blogs: