CELEN: Corpus de ELE en JapóN
Acceso abierto a la aplicación de consulta:
El Corpus de ELE en Japón (CELEN) es un corpus de aprendices de español cuya primera lengua es el japonés. Los datos que lo forman proceden de diversos contextos: el ámbito universitario, donde el español puede estudiarse como asignatura de lengua extranjera o como carrera, y contextos de aprendizaje informal en Internet como blogs electrónicos y foros.
La versión 1.2, de abril de 2023, está compuesta por 6.196 textos escritos por 1.035 aprendices, con un total de 658.467 palabras (790.086 tokens). El número de textos y de tokens queda distribuido tal como muestran los siguientes gráficos (los colores representan categorías distintas en cada uno). Para más detalles, vea el apartado Estadísticas.
Porcentaje de textos
Porcentaje de tokens
1. Universidad: español como carrera. Unas 228.000 palabras, 2.062 textos, 681 aprendices.
Universidad Kansai Gaidai: unas 141.000 palabras, 1.840 textos, 459 aprendices. Estudiantes de español como carrera universitaria, de entre primer y tercer curso. El nivel de dominio asignado a los textos es el nivel de la clase (y del libro de texto): A1, A2 y B1. Contiene la mitad de los textos escritos en las clases impartidas por profesores nativos durante el año académico 2018 (unos cuatro textos, de media), en exámenes, tareas o actividades de clase.
Universidad Sofía, Universidad de Tokoha, Universidad Nanzan, Universidad Provincial de Aichi, Universidad de Estudios Extranjeros de Osaka (Japanese Learner Corpus of Spanish, JALCOS): unas 87.000 palabras, 222 textos, 222 aprendices. Cada participante rellenó un cuestionario y escribió un texto sobre un tema a elegir entre siete temas propuestos. Los datos han sido cedidos por el profesor Yoshihito Kamakura de la Universidad de Aichi, quien recopiló los datos en 2004. Para su inclusión en CELEN, se han sistematizado los datos y se ha asignado un nivel de dominio estimado a cada texto según el curso en el que se encontraba el estudiante: A1 (primer curso), A2 (segundo curso), B1 (tercer curso), B2 (cuarto curso).
2. Universidad: español como asignatura de lengua extranjera. Universidad de Kioto: unas 144.000 palabras, 2.111 textos, 278 aprendices. Estudiantes de diversas facultades que toman el español como una asignatura anual de lengua extranjera. En el corpus se les asigna el nivel A1. Se incluyen todos los textos que escribieron como tarea en las clases impartidas por profesores nativos durante el año académico 2017 (hasta 8 textos). Para ello los estudiantes usaron varias herramientas de ayuda (corrector ortográfico, diccionario, Internet, etc.). Los datos han sido cedidos por el profesor Nobuyuki Tukahara, coordinador de las clases de español.
3. Internet: blogs electrónicos. Unas 268.000 palabras, 1.803 textos, 68 aprendices. Niveles A, B y C. Se ha seleccionado una muestra de hasta 5.000 palabras por autor (unos 27 textos de media), en blogs publicados en internet (en Blogspot, WordPress y Lang-8) entre 2004 y 2022. El periodo de seguimiento de estos aprendices es variable, desde un mes hasta más de 10 años. El proceso de recogida de los datos se describe en parte en Valverde (2016 y 2018). Parte de los datos proceden del corpus NAIST Lang-8, cuyas características se describen en Mizumoto et al. (2011).
4. Internet: foro de WordReference. Unas 19.000 palabras, 220 textos, 8 autores. Nivel C2. Se incluye una muestra de hasta 5.000 palabras por autor (unos 28 mensajes por autor), de intervenciones en el foro "Sólo español" de WordReference, por parte de participantes cuya primera lengua es el japonés. Las intervenciones fueron escritas entre 2008 y 2019, y el periodo de seguimiento de cada autor es variable: desde 0 meses, si solo publican una intervención, hasta 9 años desde la primera hasta la última. Los datos proceden del corpus WordReference, descrito con más detalle en Berdicevskis (2020).
CELEN nació con una vocación pedagógica: el objetivo principal es facilitar el uso de los corpus a los profesores de español, con vistas a su aplicación en la formación de profesores, el diseño de materiales, la planificación curricular o la investigación.
Se trata de un corpus abierto, pues esperamos que el corpus se amplíe y que otros investigadores puedan albergar sus textos en él para ofrecer a la comunidad científica una amplia muestra de aprendices japoneses de español.
Cada documento lleva asociados varios metadatos sobre el aprendiz y sobre las características del texto: edad, conocimientos de español, estancias en países hispanos, tema del texto, fecha, número de palabras requerido, situación, etc. La base de datos contiene 39 campos en total pero la cantidad de información disponible varía según el subcorpus.
Los textos han sido anotados automáticamente con el lema, la categoría gramatical y las propiedades morfosintácticas de cada palabra, mediante el etiquetador Freeling.
Para una descripción más detallada, véase el apartado Anotación.
Puede ser consultado en línea de forma gratuita en la aplicación Sketch Engine, en su versión de acceso abierto: https://ske.li/qqr.
Desde el menú principal se pueden consultar y descargar concordancias, listas, colocaciones, palabras semejantes, etc. En esta guía se ilustran algunas de sus funciones básicas con ejemplos prácticos.
Algunas partes del corpus también puede ser descargadas íntegramente y manipuladas con fines de investigación bajo una licencia Creative Commons: Atribución – NoComercial 4.0 Internacional (CC BY-NC 4.0).
Valverde, P. (2023). El corpus de aprendices japoneses CELEN y su aplicación a la docencia y la investigación en ELE. TEISEL. Tecnologías para la investigación en segundas lenguas, 3, pp. 1-31. http://doi.org/10.1344/teisel.v3.42898
Otras publicaciones: https://www.researchgate.net/profile/Pilar-Valverde
Para consultas, rellene el formulario de contacto.