Corpus CELEN - Estadísticas

Estadísticas

Para acceder a las estadísticas del corpus, haga clic en el icono de información que aparece en la barra superior, a la derecha del título.

Recuento general

Un token es cualquier conjunto de caracteres entre dos espacios. Los signos de puntuación también son tokens aunque no vayan precedidos o seguidos por un espacio. Existen dos tipos de tokens: words y non-words.
Una palabra (Word) se define como un token que empieza por una letra del alfabeto. Los tokens que no empiezan por una letra no se consideran palabras sino que se trata de signos de puntuación, números, símbolos o expresiones como 3cm*3cm, 400ml, 551HOURAI, 1er, etc. *El término Word es polisémico y se usa también para referirse a la forma de una palabra, en oposición a lema.

Tamaño del lexicón

El número de lemas distintos es cercanos a 25,000 (sin hacer distinción entre mayúsculas y minúsculas, y excluyendo números y signos de puntuación). Sin embargo, teniendo en cuenta que suelen ser necesarias al menos 20 ocurrencias de una palabra para poder hacerse una idea de su comportamiento, el corpus contiene unos 2.046 lemas con una frecuencia mínima de 20. De estos, 994 son sustantivos comunes, 426 son verbos y 267, adjetivos. En el apartado de Descarga puede acceder a la lista de lemas y de tokens.

word es el número de tokens distintos.
tag son las etiquetas asignadas a cada uno de los tokens: SP, NCMS000, VMN0000...
lempos es una combinación de lema y categoría gramatical: ser-v (ser como verbo), ser-n (ser como nombre), etc.
tags incluye las etiquetas compuestas que se asignan a verbos con pronombres enclíticos y a contracciones. Por ejemplo, decirlo : VMN0000,PP3MSA0.
morphemes incluye los lemas compuestos que se asignan a verbos con pronombres enclíticos y a contracciones: a decirlo se le asigna el lema "decir,lo".
gender_guess es el género asignado a cada palabra: masculino (M), femenino (F), común (M,F) o sin género (0).
number_guess es el número asignado a cada palabra: singular (S), plural (P), invariable (S, P) o sin número (0).
lc es la versión en minúscula de word.
lempos_lc es la versión en minúscula de lempos.
lemma es la forma de la palabra tal como se buscaría en el diccionario: pensaba -> pensar. Incluye números y signos de puntuación, que también tienen un lema.
lemma_lc es la versión en minúscula de lemma. Incluye números y signos de puntuación.
shorttag corresponde a la primera letra de las etiquetas, es decir, la categoría gramatical. De mayor a menor frecuencia: N (sustantivo), V (verbo), F (puntuación), S (preposición), D (determinante), C (conjunción), P (pronombre), A (adjetivo), R (adverbio), Z (numeral), I (Interjección), E (palabras en japonés).
pos son las categorías gramaticales usadas para extraer colocaciones: n (sustantivo), v (verbo), i (preposición), c (conjunción), p (pronombre), j (adjetivo), r (adverbio), m (numeral). Las demás palabras reciben la etiqueta x (determinantes, puntuación, interjecciones y palabras en japonés).

Tipos de texto (metadatos)

Para acceder a la frecuencia de cualquier metadato, haga clic en el icono de la derecha.

En la siguiente pantalla hay que especificar la frecuencia que se desea conocer: la frecuencia sobre el total de documentos (Structure frequency) o sobre el total de tokens (Token coverage).

Por ejemplo, la variable Contexto presenta la siguiente distribución:

Porcentaje de documentos

Porcentaje de tokens

La frecuencia se muestra en forma de gráfico en la parte superior y en forma de tabla en la parte de abajo. Ambos resultados pueden descargarse en varios formatos.

Para calcular la frecuencia de cada metadato sobre un subcorpus en particular, seleccione el subcorpus en el menú correspondiente. Por ejemplo, los niveles de dominio se distribuyen de la siguiente manera en el subcorpus de blogs:

Page updated

Google Sites

Report abuse