Metadatos
Versión 1.2 (marzo de 2023).
A continuación se muestran las 39 variables que forman la base de datos en la versión 1.2. La información sobre el aprendiz, como la edad o el sexo, va precedida por (A) y la información sobre el texto, como el título o el número de palabras, va precedida por (T). Entre paréntesis se indica la abreviatura usada internamente, por si es de interés.
Observaciones:
Cuando se desconoce el valor de un campo, se asigna la etiqueta "--Desconocido--".
Cuando hay más de un valor, se separan con una barra inclinada (/).
(A) Número de aprendiz (_01_a_num). Ejemplo: 0362. Un número de cuatro cifras que identifica de forma unívoca a cada aprendiz.
(A) Identificador de aprendiz (_02_a_id). Ejemplo: 0019-KG-M-B1. El número de aprendiz, la procedencia (Universidad, internet, etc.), el sexo (M, H, 0 si se desconoce) y el nivel de español (A1/A2/B1/B2/A/B/C), separados por un guión. Esta etiqueta se muestra a la izquierda de las líneas de concordancia, para ver fácilmente a quién corresponde cada texto. Las siglas que indican la procedencia son las siguientes:
KG = Universidad Kansai Gaidai
KU = Universidad de Kioto
BL = Blogs de Blogspot y WordPress
L8 = Red social Lang-8
JSA = Universidad Sofía
TH = Universidad de Tokoha
NZ = Universidad Nanzan
AP = Universidad Provincial de Aichi
OF = Universidad de Estudios Extranjeros de Osaka
Es posible que a un mismo aprendiz le corresponda más de una etiqueta, si por ejemplo ha participado en el corpus en primer y tercer curso, con distintos niveles de dominio. En ese caso, el número de aprendiz no cambia pero sí lo hace el nivel.
(A) Contexto de aprendizaje del español (_03_a_contexto). Ejemplo: Universidad: español como carrera; Universidad: español como asignatura de LE; Internet: blogs electrónicos; Internet: foros.
(A) Procedencia (_04_a_procedencia). Ejemplo: Universidad Kansai Gaidai; Universidad de Kioto; Blogspot y WordPress.
(A) Sexo (_05_a_sexo). Hombre; Mujer; --Desconocido--.
(A) Edad (_06_a_edad). Ejemplo: 18, 19, 20...
(A) País de residencia (_07_a_pais_residencia). Ejemplo: Japón.
(A) Lengua materna de la madre (_08_a_L1_madre). Ejemplo: Japonés.
(A) Lengua materna del padre (_09_a_L1_padre). Ejemplo: Griego/Italiano.
(A) Lenguas habladas en casa (_10_a_L_casa). Ejemplo: Japonés.
(A) Lenguas extranjeras (_11_a_otras_L). Ejemplo: L2: inglés/L3:español. Si se desconoce el orden en el nivel de dominio, se indica solamente la lengua (chino/francés).
(A) Inglés: nivel según el MCER (_12_a_en_cefr). Ejemplo: A2. Nivel más alto acreditado en un examen oficial de inglés. Para las equivalencias con los niveles del MCER usamos las tablas publicadas por las instituciones que organizan los test:
EIKEN: http://www.eiken.or.jp/eiken/en/eiken-tests/overview/
TOEFL y TOEIC: https://www.etsglobal.org/Global/Eng/Research/CEFR
(A) Inglés: títulos oficiales (_13_a_en_titulos). Ejemplo: B1 (TOEIC 580). Se indica el nivel del MCER y, entre paréntesis, el resultado del examen.
(A) Español: edad de inicio en el estudio del español (_14_a_edad_estudio). Ejemplo: 18.
(A) Contactos en países hispanos (familia, amigos) (_15_a_contactos). Sí; No; --Desconocido--.
(A) Estancia en países hispanos (_16_a_paises). Ejemplo: Perú. Es un campo de escritura libre. Cuando hay varios, se muestran en el orden en el que los ha escrito el estudiante. En ocasiones se indica cuánto tiempo estuvieron en cada país, entre paréntesis.
(A) Estancia en países hispanos (meses), en total (_17_a_paises_meses). Ejemplo: 9. Si no ha estado en ningún país, el valor es 0. Si ha estado pero no se sabe cuánto tiempo, el valor es "--Desconocido--". Si no se sabe si ha estado en algún país, el valor también "--Desconocido--".
(A) Nivel (MCER) de español estimado (_18_a_nivel_cefr_estimado). Ejemplo: B1. Se indica el nivel de español esperado, según el nivel de la asignatura (el libro de texto) en la cual se escribió el texto. Este nivel puede no corresponder con el nivel "real" de los textos en términos de competencia lingüística. En el subcorpus de blogs se han asignado niveles generales (A/B/C). En el subcorpus JALCO se ha asignado el nivel según el curso académico (primero = A1, segundo = A2, tercero = B1, cuarto = B2).
(A) Nivel (títulos) (_19_a_nivel_titulos). Ejemplo: DELE A2.
(A) Nivel (curso) (_20_a_nivel_curso). Ejemplo: 2. En la versión 1.2 se indica el curso al que corresponde la clase en la que se recogió el texto, NO el curso del estudiante, que puede ser repetidor.
(A) Nivel (semestre) (_21_a_nivel_semestre). 1; 2.
(A) Nivel (grupo) (_22_a_nivel_grupo). Ejemplo: 3/12. Este campo se eliminará en futuras versiones. Solo es relevante en los textos procedentes de la Universidad Kansai Gaidai, donde en el momento de recoger los datos había 12 grupos de estudiantes clasificados según las notas obtenidas en el curso anterior.
(A) Nivel (meses de estudio) (_23_a_nivel_meses_estudio). Ejemplo: 5. En los textos procedentes de universidades, se indican los meses de estudio de español en el momento de escribir el texto. Este campo se calcula de forma automática a partir del curso académico en el que se encuentra el estudiante y la fecha de entrega del texto. En los blogs, si un autor dice que ha estudiado español un año, suponemos que son 12 meses.
(A) Seguimiento (meses) (_24_a_intervalo_meses). Intervalo de seguimiento del aprendiz, en meses. Ejemplo: 12. Se indica el periodo de tiempo durante el cual se ha hecho un seguimiento de ese aprendiz. En la universidad Kansai Gaidai este campo tiene el valor "9" (el primer texto se recoge en abril y el último de diciembre) y en la Universidad de Kioto, "7". En los blogs el periodo de seguimiento puede ir desde un mes hasta más de 10 años (129 meses). En el corpus JALCOS, en el que los aprendices escriben solo un texto, el valor es 0.
(T) Número de texto (_25_t_num). Ejemplo: 20180067. Un número que identifica de forma unívoca cada texto. Empieza por el año en el que el texto se incorpora al corpus.
(T) Fecha en la que se escribió el texto (_26_t_fecha). Ejemplo: 2018-05-14. Cuando se desconoce la fecha exacta, se indica el año en el que se escribió el primero y el último (por ejemplo: 2009-2011), y se numeran en orden cronológico, de más antiguo a más nuevo, por lo que es posible estudiar la evolución a lo largo del tiempo.
(T) Asignación del tema (_27_t_tema_asignado). Especificado; Opción múltiple; Libre. En el contexto universitario en la mayoría de casos el tema del texto es especificado por el profesor ("Especificado") y la mayoría de tareas son guiadas, al estilo de las pruebas de los exámenes DELE, con una lista de puntos que deben incluirse en el texto. En algunas pruebas el estudiante puede elegir entre dos o más temas ("Opción múltiple"). En los blogs de aprendices, escritos por iniciativa propia, estos eligen el tema libremente ("Libre").
(T) Título del texto (_28_t_titulo). Ejemplo: Mi experiencia estudiando español. En los blogs electrónicos cada documento tiene el título que le asignó su autor, que aparece en la primera línea ("Ayer fui a ver flamenco", "Ayer corté mi pelo", "Cambio de teléfono móvil"), aunque muchos podrían agruparse -manualmente- bajo un título más general como "Lo que hice ayer" o "Una receta".
(T) Macrofunción predominante (_29_t_macrofuncion), también denominada secuencia textual. Se refiere a la intención principal o función que tiene el texto. Se distinguen seis tipos: narración (pasado/presente/futuro), descripción (personas/objetos/lugares), exposición, argumentación, diálogo, instrucción. En el corpus no hay ningún texto donde la secuencia predominante sea retórica y hay muy poco de argumentación. En el subcorpus de blogs este campo tiene el valor "--Desconocido--".
(T) Género textual esperado (_30_t_genero), también denominado género discursivo. Ejemplo: Correo electrónico personal. Cuando se le ha pedido al estudiante que simplemente escriba sobre un tema y no se le han dado indicaciones sobre el género esperado, se le asigna el género “Redacción”. Cuando un texto puede pertenecer a dos géneros (por ejemplo, hacer una presentación oral de una biografía), se le asignan los dos. En el subcorpus de blogs este campo tiene el valor "Entrada en un blog" aunque sería posible asignar valor adicionales manualmente (receta, presentación personal, diario...).
(T) Destinatario (_31_t_destinatario). Ejemplo: Genérico - Estudiantes. Cuando el estudiante no ha recibido indicaciones, el destinatario es "No especificado". En el subcorpus de blogs, este campo tiene el valor "Genérico - Internautas".
(T) Autenticidad (_32_t_autenticidad). Alta; Media; Baja. Alta: cuando el texto ha sido producido por iniciativa propia (como en los blogs). Media: cuando se le proporciona al estudiante un contexto en el que ese texto tiene un sentido. Por ejemplo: "vas a estudiar en una escuela de español en Madrid y tienes que escribir un correo electrónico a tu profesor para presentarte y explicarle tu experiencia estudiando español". Baja: cuando en las instrucciones para escribir el texto no se indica el contexto o la motivación para escribir, por ejemplo “Escribe una redacción sobre tu infancia”.
(T) Noción específica predominante (_33_t_nocion). Ejemplo: 8.3. Deportes. Nos guiamos por la lista del PCIC: https://bit.ly/2CtFJPg Elegimos el apartado o subapartado más representativo y concreto. Un mismo texto puede tener valor múltiples. Por ejemplo, a los textos que tratan sobre la rutina diaria, se les asignan los valores "1.3. Acciones y posiciones que se realizan con el cuerpo/5. Alimentación/06. Educación/07. Trabajo/". En el subcorpus de blogs este campo tiene el valor "--Desconocido--".
(T) Libro de texto y unidad (_34_t_libro). Ejemplo: Nuevo Avance 4 SGEL, Unidad 2. Libro de texto y unidad que se ha tratado en clase antes de escribir el texto. En el subcorpus de blogs, este campo tiene el valor "No".
(T) Situación en la que se ha escrito el texto (_35_t_situacion). Ejemplo: Tarea; Blog personal; Examen parcial; Participación en un foro; Actividad de clase,; Examen final.
(T) Límite (minutos) (_36_t_limite_minutos). Límite de tiempo, en minutos, si lo hay. Ejemplo: 20. Cuando no hay, el valor es "No".
(T) Palabras (mínimo) (_37_t_minimo_palabras). Número de palabras exigidas. Ejemplo: 100. Cuando no hay un número de palabras exigidas, el valor es "No".
(T) Acceso a ayuda (diccionario, libro, internet, etc.) (_38_t_ayuda). Ejemplo: Sí, No. El valor "No" indica que el texto ha sido escrito sin materiales de referencia, normalmente por tratarse de un examen. El valor "Sí" indica que ha sido posible acceder a ellos, aunque no se hayan usado finalmente, por ejemplo al escribir un texto en casa.
(T) Medio en el que se entregó el texto (_39_t_medio). Manuscrito; Electrónico.