A adoção de boas práticas é fundamental para favorecer a qualidade, a consistência e a interoperabilidade dos metadados e/ou dados coletados disponíveis em repositórios digitais, sobretudo quando há processos de fornecimento e consumo de dados. Mais do que atender a requisitos técnicos, as boas práticas permitem que os dados que circulam entre diferentes sistemas, sejam compreendidos e mantenham valor ao longo do tempo.
Neste guia, as recomendações essenciais, consideradas boas práticas, foram organizadas em dimensões:
Interoperabilidade: determinam características necessárias para que os metadados possam ser fornecidos e consumidos de forma compreensível entre sistemas de informação distintos.
Identificadores persistentes: posicionam os identificadores persistentes como elementos chave no processo de compreensão unívoca de pessoa, objetos digitais, organizações, favorecendo o relacionamento entre eles de forma mais fluída e livre de inconsistências.
Vocabulários controlados: podem ser utilizados tanto no campo de atributo quanto no campo de valor dos metadados e possibilitam unicidade a partir da adoção de termos padronizados, evitando ambiguidades e sinônimos desnecessários.
Qualidade dos metadados: apresenta elementos imprescindíveis para assegurar a clareza, a padronização e a confiabilidade dos registros, considerando, por exemplo, forma, conteúdo e idioma.
São apresentadas boas práticas para que instituições possam compreender os benefícios possibilitados pela sua adoção.
A interoperabilidade é um dos pilares para que os repositórios digitais possam dialogar de forma eficaz com outros sistemas de informação acadêmicos e científicos, a exemplo da Plataforma Sucupira. Trata-se da capacidade de diferentes plataformas compartilharem, compreenderem e reutilizarem dados sem perda de significado ou qualidade. Nesse sentido, adotar boas práticas de interoperabilidade é essencial para assegurar a integração confiável e sustentável no ecossistema de dados, no caso deste guia, no contexto da avaliação pós-graduação stricto sensu brasileira.
Para orientar gestores e equipes técnicas, destacam-se as seguintes recomendações:
Cada campo deve representar sempre o mesmo conceito, independentemente do padrão de metadados adotado. Essa consistência semântica evita ambiguidades e garante que os registros mantenham seu significado quando transportados entre diferentes formatos, como, por exemplo, oai_capes, xoai, qdc.
O uso de vocabulários controlados padronizados, como LCSH, DeCS ou a Tabela de Áreas do Conhecimento do CNPq, assegura uniformidade terminológica e facilita a recuperação e compreensão da informação. Além disso, contribui para reduzir redundâncias e sinônimos desnecessários, promovendo maior precisão na indexação e busca.
Sempre que houver necessidade de converter registros entre formatos distintos, deve-se aplicar um mapeamento estruturado que mantenha a equivalência semântica dos campos. Crosswalks bem definidos reduzem perdas de informação e aumentam a confiabilidade no processo de integração de dados.
A padronização na codificação de caracteres evita erros de acentuação e beneficia a correta interpretação de registros multilíngues. Adotar UTF-8 como regra geral assegura compatibilidade entre sistemas nacionais e internacionais.
Atribuir identificadores persistentes, como DOI, Handle, ORCID e ROR para objetos digitais, pessoas e organizações, assegura a rastreabilidade e facilita o reuso confiável dos dados. Além de evitar ambiguidades, esses identificadores favorecem a integração com bases globais de conhecimento.
Manter a interface OAI-PMH do repositório permanentemente disponível e com atualização automática favorece o fornecimento e o consumo de dados por provedores de serviços. Agir como provedor de dados requer que o fornecimento de dados esteja permanentemente disponível e que haja correspondência direta e efetiva com os registros disponíveis na base de dados, assegurando que as atualizações sejam permanentemente acessáveis.
O conceito de Identificador Persistente (Persistent Identifier – PID) está diretamente associado à necessidade de que recursos disponibilizados na web possam ser identificados de maneira inequívoca, estável e permanente ao longo do tempo. No contexto dos repositórios digitais, o uso de identificadores persistentes constitui-se em um dos principais mecanismos para assegurar a qualidade dos dados, reduzindo ambiguidades, promovendo interoperabilidade entre plataformas e garantindo rastreabilidade para diferentes finalidades.
Em termos conceituais, considera-se que todo identificador persistente confiável deve possuir as seguintes propriedades: resolubilidade, estabilidade, unicidade e governança por políticas claras de manutenção.
Na web, essa base semântica tem como fundamento o Uniform Resource Identifier (URI), definido como “[...] um meio simples e extensível para a identificação de um recurso” (Berners-Lee et al., 2005, tradução nossa).
Complementarmente, Coneglian e Santarém Segundo (2017, p. 89-90) destacam que o URI é essencial pela capacidade de permitir identificação fácil e uniforme dos recursos, diferenciando-os de forma padronizada e facilitando a compreensão do contexto em que se inserem.
Para orientar gestores e equipes técnicas, destacam-se as seguintes recomendações:
Cada objeto digital deve ter um identificador persistente que possa ser acessado na web de forma estável, garantindo recuperação futura. Preferencialmente, utilizar DOI, Handle ou ARK.
Exemplo: Um trabalho de dissertação com DOI https://doi.org/10.1234/universidade.tese.2025.
As pessoas representadas nos registros, independente de suas atuações - autores, orientadores, coorientadores e membros de banca - devem possuir identificadores persistentes, como ID Lattes e ORCID, que asseguram reconhecimento unívoco.
Exemplo: Autor com ORCID https://orcid.org/0000-0002-1825-0000 e ID Lattes http://lattes.cnpq.br/0042296869089823.
Para identificar a afiliação institucional de forma padronizada, recomenda-se o uso do Research Organization Registry (ROR), que fornece URI única para organizações.
Exemplo: Universidade X identificada no ROR como https://ror.org/04abcde89.
Indicar o relacionamento entre diferentes produções (artigos, capítulos de livros, livros, produtos técnicos, conjuntos de dados) utilizando identificadores persistentes, visando garantir a visibilidade dos impactos e a rastreabilidade.
Exemplo: Tese com DOI https://doi.org/10.1234/universidade.tese.2025 vinculada a artigo com DOI https://doi.org/10.1000/xyz123.
Cada metadado requer uso específico para que possa atingir ao objetivo pretendido. No caso dos identificadores persistentes, cada entidade (pessoa, organização, objeto digital) deve possuir se identificador persistente registrado em uma entrada própria. Utilizar qualificadores específicos de acordo com a necessidade.
Exemplo:
dc.identifier.uri: http://repositorio.universidade.br/handle/123456.
dc.identifier.doi: https://doi.org/10.1234/universidade.tese.2025.
Explicação: Sempre indicar o tipo de identificador utilizado, garantindo clareza semântica e interoperabilidade.
Exemplo:
vivo:orcidId: https://orcid.org/0000-0002-1825-0000.
Explicação: Cada instituição deve ter uma política clara para garantir a manutenção de identificadores ao longo do tempo, prevendo atualizações e redirecionamentos.
Exemplo: Quando uma URL interna for alterada, aplicar redirecionamento permanente HTTP 301 para preservar o acesso.
Os vocabulários controlados são instrumentos fundamentais para padronizar a descrição de informações em ambientes informacionais como repositórios digitais. Eles funcionam como listas de termos aceitos em um determinado domínio do conhecimento, estabelecendo formas preferidas, além de controlar sinônimos, homônimos e variações gramaticais.
Esses vocabulários podem assumir diferentes níveis de complexidade, como tesauros, taxonomias, ontologias, arquivos de autoridade ou esquemas de classificação. Seu objetivo é garantir uniformidade, clareza e precisão no preenchimento de metadados, facilitando a recuperação da informação e a interoperabilidade entre sistemas.
A Confederation of Open Access Repositories (COAR), por meio da iniciativa COAR Vocabularies, oferece vocabulários padronizados aplicáveis aos repositórios institucionais, sendo referência internacional para boas práticas.
Para orientar gestores e equipes técnicas, destacam-se as seguintes recomendações:
Para identificar corretamente dissertações e teses, devem ser utilizados termos padronizados da COAR em vez de variações livres.
Exemplo:
Correto: master thesis → COAR Vocabulário
Correto: doctoral thesis → COAR Vocabulário
BP-VC2: Padronizar os tipos de acesso
O acesso ao documento deve ser descrito de forma consistente, com termos padronizados que evitam ambiguidades.
Exemplo:
open access → COAR Vocabulário
restricted access → COAR Vocabulário
embargoed access → COAR Vocabulário
metadata only access → COAR Vocabulário
Antes de preencher um campo de metadado, deve-se verificar se existe entrada padronizada no Repositório de Metadados da CAPES. Caso exista, o vocabulário indicado deve ser utilizado obrigatoriamente.
Exemplo:
Para “Nome do Programa de Pós-Graduação”, usar a lista oficial disponibilizada na Plataforma Sucupira.
Para “Nome do autor”, se a entrada padronizada indicar “Não se aplica”, significa que o preenchimento é livre.
O uso de sinônimos, abreviações ou variações locais prejudica a padronização e dificulta a interoperabilidade. Deve-se sempre optar pelo termo autorizado.
Exemplo:
Correto: open access
A qualidade dos metadados é essencial para favorecer que o dado seja confiável, útil e reutilizável em diferentes contextos. Mais do que interoperar tecnicamente, é necessário que os registros apresentem clareza, completude, consistência, precisão e atualização. Sem isso, mesmo um repositório digital tecnicamente adequado pode gerar dificuldades no consumo dos dados, prejudicando o acesso, o processamento e o uso dos dados.
Registros devem conter todos os campos obrigatórios definidos pela CAPES, evitando lacunas que comprometam a coleta.
Exemplo: Uma dissertação registrada sem nome do orientador será considerada incompleta e poderá ter dificuldades na integração.
As informações devem ser coerentes em todos os campos. Dados duplicados, divergentes ou contraditórios reduzem a confiabilidade do repositório.
Exemplo: O campo “Idioma principal” marcado como Inglês, enquanto o resumo principal está em Português.
Os metadados devem refletir o estado real e mais recente da produção intelectual. Atrasos ou desatualizações prejudicam relatórios e indicadores.
Exemplo: Uma tese defendida em 2023 cadastrada apenas em 2025 gera inconsistências na coleta para avaliação.
Sempre que possível, implementar rotinas de validação automática (scripts ou checklists) para reduzir erros humanos no preenchimento dos metadados.
Exemplo: Bloquear a ingestão de registros com DOI em formato incorreto ou sem o número do ORCID.