CELEN: Corpus de ELE en JapóN

¿Cómo puedo consultar el corpus?

El corpus puede ser consultado libremente en esta dirección:

https://ske.li/qqr

¿Qué es CELEN?

CELEN es un corpus de aprendices de ELE en Japón. Contiene exclusivamente textos escritos por hablantes nativos de japonés, monolingües o bilingües, principalmente del ámbito universitario.


Versión 1.1 (mayo de 2022):

  • Palabras: 389,000

  • Tokens*: 469,000

  • Oraciones: 44,000

  • Textos: 4,367

  • Aprendices: 795

*El número de tokens incluye no solo el número de palabras, en el sentido tradicional del término, sino también signos de puntuación, números, abreviaturas o cualquier carácter entre dos espacios.

Procedencia de los textos:

  • Universidad Kansai Gaidai: unas 140.000 palabras, 1.840 textos, 459 aprendices. Estudiantes de español como especialidad. Niveles A1, A2 y B1.

  • Universidad de Kioto: unas 144.000 palabras, 2.111 textos, 278 aprendices. Estudiante de español como segunda lengua extranjera. Nivel A1.

  • Blogs de aprendices de nivel B: 40,000 palabras, 178 textos, 8 autores.

  • Blogs de aprendices de nivel C: 64,000 palabras, 238 textos, 14 autores.

Se trata de un corpus abierto, en crecimiento, pues el objetivo es ampliarlo con textos procedentes de otras universidades.

A la manera de un Portafolio, contiene varios textos escritos por cada aprendiz a lo largo de un año académico. El subcorpus de la Universidad Kansai Gaidai contiene aproximadamente la mitad de los textos que los estudiantes han escrito durante un curso (entre 3 y 6 para el 78% de aprendices), mientras que el de la Universidad de Kioto contiene todos los textos escritos por los estudiantes durante un año académico (entre 7 y 8 para el 92% de aprendices). El nivel del MCER de los textos se basa en el nivel del libro de texto usado en la clase en la cual fueron recogidos.

En cuanto al perfil de los aprendices universitarios, la gran mayoría no tiene conocimientos previos de español al empezar sus estudios, ni contacto con esta lengua fuera de clase y apenas usará el español en su trabajo después de graduarse. Para saber más sobre los contextos y el trasfondo pedagógico y social del español en Japón, pueden consultarse los siguientes documentos de referencia:

Lengua y cultura en español en el Japón de la era Reiwa (2021)

Enseñar español en Japón (2015)

Cuestionario sobre Análisis de Necesidades Aplicado a los Alumnos Universitarios Japoneses de Español (2012).

En la versión 1.1 se han añadido textos procedentes de blogs publicados en Internet por aprendientes de niveles B y C, algunos de ellos residentes en países de habla hispana. El periodo de seguimiento de estos aprendices es variable, desde unos meses hasta más de 10 años.

¿Para qué puedo usarlo?

CELEN nace con una vocación pedagógica. El objetivo principal es facilitar la aplicación de la lingüística de corpus a los profesores de español que trabajan en cada una de las universidades representadas. Si bien es cierto que algunos aspectos de la enseñanza del español deben ser revisados y actualizados usando metodología de corpus (o metodología científica en general), también lo es que la investigación en este campo suele estar alejada de la realidad que se vive en el aula de lenguas extranjeras.

Para acortar esa distancia entre el ámbito de la investigación y la realidad del aula proponemos la creación de varios corpus locales, esto es, procedentes de una institución en particular, para que los profesores puedan investigar sobre las producciones de sus alumnos, en textos que son relevantes en su contexto de enseñanza.

Uno de los principios fundamentales que seguimos en el diseño del corpus es el de favorecer su aprovechamiento por parte de investigadores con intereses diversos. Para conseguirlo se han tomado las siguientes medidas:

1. Para cada texto se han registrado numerosas variables sobre el aprendiz y sobre la situación en la que se escribió.

2. El corpus puede ser descargado y manipulado con fines de investigación bajo una licencia CC BY-NC 4.0 y consultado en línea en la plataforma Sketch Engine.

Con ello esperamos que este proyecto pueda ser útil para profesionales de campos diversos como la enseñanza de lenguas extranjeras, la adquisición de segundas lenguas o la lingüística computacional.

¿Qué tipo de información contiene?

Cada texto lleva asociados varios metadatos sobre el aprendiz y sobre las circunstancias en las que se escribió el texto. Véase el apartado Descripción.

Además, los textos han sido etiquetados automáticamente con información sobre el tipo de palabra, sus propiedades morfosintácticas y su lema. Véase el apartado Consulta.

Agradecimientos

Profesores e investigadores que han hecho posible este proyecto recogiendo datos entre sus estudiantes:

  • Universidad Kansai Gaidai: (en orden alfabético): Koji Ando, Aurelio Asiain, Fernando Blanco, Luigi Di Martino, Hirofumi Doi, Estela García, Disner Gutarra, Yuriko Kitamura, Amaya León, Paula Letelier, Gloria Lomeli, Yuuko Matsuda, Yumi Nagase, Yurie Okami, Sonia Riveros, Sergio Sonan, Yumi Sunahara, Muneaki Tsujii, Pilar Valverde, Gerardo Villegas, Atsuko Wasa, Reina Yanagida.

  • Universidad de Kioto: Nobuyuki Tukahara.