Manual de Usuario del Subsistema de carga y edición de datos de la Plataforma #PerúCRIS

6.1. Estructura del archivo XLS (plantilla) para la carga masiva de datos

El Subsistema de carga y edición de datos de la Plataforma #PerúCRIS permite, a través de un archivo XLS o plantilla, no solo la carga masiva de ítems a una determinada colección, sino también editar, actualizar o eliminar masivamente los ítems ya creados en el sistema. Para ello, se debe tener en claro la estructura que debe tener la plantilla que deberá de importar.

La plantilla debe tener una primera pestaña que representa la lista de ítems a añadir/actualizar/eliminar y otras pestañas que contienen grupos de datos que se refieren a los elementos contenidos en la primera (nested fields).

Las reglas que debe cumplir la primera pestaña de la plantilla son las siguientes:

  • La pestaña puede tener cualquier nombre.

  • La primera fila representa el encabezado de la pestaña (los campos de información o metadatos).

  • La primera columna, que debe denominarse ID, representa el identificador del ítem sobre el cual se hará la actualización/eliminación. Para el caso de la carga masiva de ítems nuevos, esta columna deberá estar vacía. La sintaxis permitida en la columna ID es la siguiente:

      • Puede ser el UUID del ítem a modificar o borrar. Para conocer el UUID de un ítem ver la sección “Vincular o referenciar ítems a través de su identificador único (UUID)”; o,

      • Puede tener un valor como <type>::<value>, donde <tipo> representa el tipo del id y <valor> su valor. Los valores permitidos para <tipo> son UUID, y en este caso el valor representa el uuid del ítem. Por ejemplo, el id ORCID::0000-0002-1825-0097 identifica el ítem que tiene el valor 0000-0002-1825-0097 para los metadatos persona.identificador.orcid. El ítem identificado de esta manera debe ser único: si se identifican más ítems para el mismo id, se produce un error.


  • La segunda columna, que debe llamarse ACTION, representa el proceso a realizar con los ítems. Los valores permitidos son los siguientes:

      • ADD: crea un ítem nuevo en el subsistema de la institución (espacio de trabajo) y, si es válido, es dirigido al personal de Concytec para su validación final y publicación en los respectivos directorios de la Plataforma. En este caso, la columna ID tiene que estar vacía.

      • ADD_WORKSPACE: crea un ítem en el subsistema de la institución (espacio de trabajo) sin enviarlo al personal de Concytec para su validación y publicación. En este caso, la columna ID tiene que estar vacía.

      • UPDATE: actualiza el ítem; en este caso la columna ID no debe estar vacía.

      • DELETE: elimina el ítem; en este caso la columna ID no puede estar vacía.


  • Las columnas restantes representan los campos de información (metadatos) que se establecerán para el ítem; los encabezados (headers) de estas columnas deben ser los campos de metadatos de acuerdo a la configuración de cada colección.

  • Las pestañas adicionales de la plantilla, corresponden a campos de información (metadatos) asociados a grupos (nested fields) los cuales no deben aparecer en la primera pestaña sino en las siguientes, como se explicará más adelante.

  • Se puede especificar el idioma de los metadatos con la sintaxis <metadata-field>[<language-code>]. Por ejemplo, para especificar tanto el valor sin idioma como el valor en inglés para los metadatos dc.title, el archivo XLS debe contener las columnas dc.title y dc.title[en].

  • Los valores de las columnas de los campos de información (metadatos) deben ser los datos del ítem que se va a crear o actualizar. En caso de actualización, todos los metadatos presentes son reemplazados por los valores requeridos.

  • Es posible especificar múltiples valores (campos con valores repetibles) para un solo campo de metadatos concatenando los valores con ||

Por ejemplo, para ingresar dos valores en el campo “Scopus AffID” de una institución, en el campo correspondiente colocar ambos valores separados por || como sigue (sin espacios entre ellos):

Ejemplo de la primera pestaña de un ítem de la entidad Persona (Person):

En el ejemplo anterior, se producirán los siguientes procesos:

    • La primera fila de datos, creará un nuevo ítem para la persona “Maldonado Prieto, Iván Alfonso”, con los siguientes datos: DNI: “24887789” y ORCID: “0000-0002-5395-4818”.

    • La segunda fila de datos, editará el ítem con UUID: "51f7c9b5-414a-4c1f-a0bc-0233feb84f33", actualizando o reemplazando el campo “person.identifier.orcid”, con el número de ORCID: “0000-0002-7374-7576” correspondiente a la persona “López García, Maritza Isabel”.

    • La tercera fila de datos, eliminará a la persona “ Rojas Santa Cruz, América Luz” cuyo UUID es “7e1e9ff7-dfbb-4909-bb64-1c517b9ad3ca”.


Las pestañas que siguen a la primera (nested fields) se utilizan para especificar conjuntos adicionales de campos de información (metadatos) que se añaden a los especificados en la primera pestaña. Un número indefinido de este tipo de pestañas puede estar presente en el archivo XLS a importar; todas estas pestañas deben cumplir con las siguientes reglas:

  • Su nombre debe coincidir con el nombre del campo de información (metadato) que representa.

  • La primera fila representa el encabezado de la página (campos de información).

  • La primera columna, que debe llamarse PARENT-ID, representa el identificador del ítem al que se agrega el grupo de metadatos. Por lo tanto, este ID debe corresponder al de un ítem de la primera página, utilizando la sintaxis ROW-ID::<fila del ítem>, donde <fila del ítem> representa el índice de la fila del ítem al que se va a hacer referencia (el recuento de la fila comienza en 1 e incluye el encabezado).

  • Las columnas restantes representan los metadatos que se establecerán para el ítem; los encabezados (headers) de estas columnas deben ser los campos de metadatos de acuerdo a la configuración de cada colección.

  • Los valores de las columnas de los campos de información (metadatos) deben ser los datos del ítem que se va a crear o actualizar. En caso de actualización, todos los metadatos presentes son reemplazados por los valores requeridos.

  • No es posible especificar múltiples valores en una sola celda; para proporcionar más valores para los mismos metadatos es necesario insertar más filas remitiéndolas, a través del PARENT-ID, al mismo ítem presente en la primera hoja.

  • Las filas que no se refieren a ninguna fila de la página principal serán ignoradas. Por lo tanto, aunque se quiera añadir un ítem con grupos de metadatos solamente, sigue siendo necesario añadir una fila en la primera pestaña para dicho ítem y luego referirse a este en las pestañas siguientes.

Ejemplo de plantilla con nested fields:

Primera pestaña:

Pestaña nested:

En el ejemplo anterior, se producirá lo siguiente:

  • La pestaña nested agrega un conjunto de datos para la “Universidad de Piura”, referenciándola a través de la sintaxis “ROW-ID::2”, donde “2” corresponde a la fila de dicha universidad en la primera pestaña.

  • La pestaña nested agrega dos conjuntos de datos para la “Universidad Católica San Pablo”, referenciándola a través de la sintaxis “ROW-ID::3”, donde “3” corresponde a la fila de dicha universidad en la primera pestaña. Nótese que cada conjunto de datos a agregar para la Universidad Católica San Pablo está dispuesto en una fila independiente.

Consideraciones especiales:

  1. Es importante señalar que cada una de las entidades del sistema cuenta con campos que son obligatorios y obligatorios si son aplicables. En ese sentido, si carga la plantilla y no ha llenado alguno de estos campos, se producirá lo siguiente:

  • Los ítems cargados se quedarán en su espacio de trabajo institucional (Mi DSpace) con la etiqueta “Flujo de trabajo”, por lo que no serán enviados al personal de Concytec para su validación y publicación en los directorios correspondientes de la plataforma; hasta que se ingresen los campos obligatorios de forma manual y se complete el envío al Concytec a través del botón “Archivar”. El proceso de actualización de datos no se puede realizar masivamente.

  • En el archivo log del proceso se producirá un error de validación en la carga, a pesar que los registros hayan sido cargados en su espacio de trabajo. En el error se indicará el o los metadatos obligatorios que no han sido llenados en la carga.

2. Considerar que algunos campos de información deben ser ingresados a través de vocabularios controlados, para ello, en el archivo XLS a cargar debe de consignarse la URI del término que corresponda.

Ejemplos:

  • Los datos que refieren al Campo de conocimiento OCDE, el cual se encuentra en varias de las entidades del sistema, para consignar el término “Biofísica” se deberá colocar la URI en el campo correspondiente:

https://purl.org/pe-repo/ocde/ford#1.06.06

  • Los datos que refieren al estado de un proyecto, en la entidad Proyecto, para consignar el término “Concluido”, se deberá colocar la URI de dicho término en el campo correspondiente:

https://purl.org/pe-repo/concytec/estadoProyecto#concluido

Asimismo, existen campos con valores de datos específicos como el formato de fecha o el formato ISO 3166 para códigos de países. Por ejemplo: para las fechas los formatos permitidos son AAAA-MM-DD, AAAA-MM ó AAAA (donde AAAA es el año, MM el mes y DD el día).

Ejemplos de formatos de fechas (valores permitidos):

Ejemplo de códigos de países, para referenciar a Perú, el código es PE:

3. Para la entidad Person (Personas) - Directorio de Talento humano:


  • Considerar que el archivo XLS a cargar debe contar con al menos un identificador de la persona: DNI para el caso de peruanos y/o ORCID para extranjeros. Si no se cuenta con uno de estos datos, el archivo solo se guardará en su espacio de trabajo, más NO será enviado a Concytec para su validación.

  • En el caso particular del campo “ORCID” (person.identifier.orcid), en el archivo XLS a cargar se deberá considerar solo los 16 dígitos de dicho ID (separados por los guiones correspondientes), de la siguiente manera:

  • El campo “Nombre preferido” (dc.title) lo deberá ingresar con el formato: Apellido(s), Nombre(s). Por ejemplo:

  • Para el campo “Género” (oairecerif.person.gender), los valores permitidos son: m = masculino, f = femenino.

  • Se recomienda, en la medida que sea dable, que en el campo “Afiliación principal” (person.affiliation.name) se consigne el dato de la dependencia más específica posible dentro de la institución, afiliada a la persona. Si no fuera factible registrar ese dato, considerar la institución matriz.

Por otro lado, si la persona cuenta con más de una dependencia afiliada dentro de la propia institución; por ejemplo, pertenece a una facultad pero también a un grupo de investigación, las demás dependencias no registradas como la principal, deberán ser consignadas en la pestaña nested “Otras afiliaciones'' (oairecerif.person.affiliation).

4. Para las entidades Publications (Publicaciones) y Patents (Patentes) - Directorio de Producción científica:


  • Considerar que para que una publicación o patente aparezca en el listado de publicaciones del perfil de una institución deberá completar el campo “Filiación” (oairecerif.author.affiliation) que se encuentra dentro de la pestaña de los datos del autor (dc.contributor.author) y referenciar a la institución a través de su UUID (ver sección Vincular o referenciar ítems a través de su identificador único (UUID)). Por ejemplo, si deseamos que la publicación de la autora “Rojas Maldonado, Jessica María” aparezca como una publicación de la “Pontificia Universidad Católica del Perú”, en la plantilla se deberán ingresar los datos de la siguiente manera:

5. Para las entidad Project (Proyectos) - Directorio de Proyectos:


  • Para el campo “Clasificación Industrial Internacional Uniforme - CIIU” (perucris.type.ciiu), el dato debe ingresarse en el archivo XLS con la siguiente sintaxis: Ciiu::[código de 4 dígitos del CIIU] (ver aquí los códigos CIIU) en). Por ejemplo: para clasificar un proyecto bajo el término “Cultivo de arroz” cuyo código CIIU es “0112” el dato debe ser ingresado en la plantilla de la siguiente manera:

6. Para la entidad OrgUnit (Unidades organizativas) - Directorio de Instituciones:


  • Considerar que el archivo XLS a cargar debe contar con al menos un identificador de la institución (aplica para instituciones principales): RUC para el caso de instituciones peruanas y/o ISNI, ROR, Scopus, CrossRef o Ringgold para instituciones extranjeras.


  • Para el campo “Tipo de organización” (dc.type), cuyo llenado es obligatorio, se deben tomar en cuenta los siguientes valores:

      • Institución principal”: para unidades organizativas principales o matrices.

      • Dependencia”: para unidades organizativas dependientes (facultades, centros, laboratorios, líneas o grupos de investigación, etc.).

Por ejemplo:

  • Para el campo “Clasificación Industrial Internacional Uniforme - CIIU” (perucris.type.ciiu), el dato debe ingresarse en el archivo XLS con la siguiente sintaxis: Ciiu::[código de 4 dígitos del CIIU] (ver aquí los códigos CIIU) en). Por ejemplo: para clasificar un proyecto bajo el término “Cultivo de arroz” cuyo código CIIU es “0112” el dato debe ser ingresado en la plantilla de la siguiente manera:

  • Los siguientes campos deben dejarse en blanco, éstos serán llenados por Concytec:

      • Es un Instituto Público de Investigación (IPI)” (perucris.orgunit.ipi)

      • Es una entidad financiadora (funder)” (perucris.orgunit.funder)

      • Acciones de vigilancia tecnológica” (perucris.sti.actions)

      • Unidad formal de vigilancia tecnológica” (perucris.sti.formalUnit)

      • 166006 o equivalente certificada” (perucris.sti.qualityCertified).

Asimismo, todos los campos que se contienen en la pestaña “perucris.renacyt.registration” también deben quedar vacíos y serán llenados por Concytec.


  • Se recomienda que si una institución cuenta con más de un domicilio, éste sea ingresado como una dependencia aparte.