Anotación morfosintáctica

El corpus ha sido etiquetado automáticamente con el lema, la categoría gramatical y los rasgos morfosintácticos de cada palabra, mediante el analizador Freeling

El lema es la forma de la palabra tal como se buscaría en el diccionario: 

La categoría gramatical e información morfosintáctica se codifican en una etiqueta como DP1CSS (determinante posesivo de primera persona, de género común, singular, y con poseedor singular), NCMS000 (nombre común masculino singular), etc. Véase la lista completa de etiquetas.

Para saber qué lemas o etiquetas suelen recibir ciertas palabras, haga clic en el botón View de la barra de herramientas y elija qué atributo quiere ver debajo de cada palabra. Como en las imágenes anteriores, pueden mostrarse varios atributos: el lema (lemmas), la etiqueta (tags), el lema y la categoría (lemposes), etc. Para una definición de todas las opciones disponibles, vea el apartado Estadísticas.

En esta versión del corpus el análisis es totalmente automático, no hay revisión manual. Solo modificamos el análisis de las palabras en japonés (en kanji, hiragana o katakana) que aparecen ocasionalmente, a las que asignamos automáticamente la etiqueta EJ.

Como sucede con todos los corpus analizados automáticamente, el análisis sin revisión puede contener errores de etiquetado. Mientras que en textos normativos la precisión es de alrededor de un 97% (esto es, 3 de cada 100 palabras reciben una etiqueta incorrecta), en textos de aprendices de nivel intermedio la precisión baja hasta un 93% (Valverde 2011), y previsiblemente más en textos de nivel inicial. 

En textos de nivel intermedio, aproximadamente la mitad de etiquetas erróneas del corpus se deben a errores de los aprendices. La otra mitad ocurren en palabras correctas y por lo tanto son atribuibles al etiquetador automático. Para este es difícil asignar la etiqueta correcta a los textos que no siguen la norma, sobre todo a las palabras con errores ortográficos. Por ejemplo, la distinción entre presente de indicativo (llego) y pretérito indefinido (habló) depende un acento y por lo tanto fallará si ese acento está ausente. En otros casos, con ayuda del contexto o de la estructura morfológica, algunas palabras con errores ortográficos pueden recibir la etiqueta correcta: son simpaticos, es dificil o es facíl son correctamente analizados como adjetivos y encataba como un verbo en tercera persona del singular del pretérito imperfecto. 

Los errores atribuibles al etiquetador son de varios tipos. Por ejemplo, en una oración como Juego al tenis hasta las 4, este considera Juego como un sustantivo común en lugar de un verbo, probablemente porque ha sido entrenado con textos periodísticos en los que abundan más los titulares sin verbo que los verbos en primera persona. El adverbio últimamente también es etiquetado a menudo como un nombre propio, cuando es la primera palabra de la oración y se escribe con mayúscula inicial. En futuras versiones del corpus se corregirán algunos de estos fallos de manera automática. Otros fenómenos como el tipo de se tienen una precisión baja porque son intrínsecamente difíciles de analizar de forma automática.

Sin embargo, a pesar del ruido generado por los errores, este nivel de análisis amplía las posibilidades de búsqueda. Es necesario inspeccionar los resultados con cuidado y valorar si el margen de error es aceptable. Para más detalles, vea el apartado sobre cómo filtrar los resultados.

Si se prefiere, es posible ignorar la anotación y realizar búsquedas sobre el texto plano, sin anotar. Para ello, use la opción Word o Phrase en el menú de búsqueda avanzada.