A coleta automática de metadados é essencial para reduzir o esforço manual, evitar redundâncias e garantir atualização contínua. Os repositórios digitais em DSpace utilizam o protoloco OAI-PMH para exibir os metadados para a coleta.
O Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH) é um protocolo padronizado para o fornecimentode metadados em repositórios digitais, desenvolvido pela Open Archives Initiative com o objetivo de facilitar a interoperabilidade entre sistemas de informação, permitindo que diferentes sistemas disponibilizem e troquem metadados de maneira uniforme.
Esse protocolo utiliza o padrão HTTP como transporte e XML como formato de resposta, estrutura as informações de forma legível tanto para máquinas quanto para humanos.
No contexto do OAI-PMH, existem dois atores principais:
a) Provedor de Dados (Data Provider): o repositório que disponibiliza seus metadados via OAI-PMH.
b) Provedor de Serviços (Service Provider): a aplicação ou sistema que consome esses metadados e os processa para diversos fins.
O protocolo OAI-PMH define um conjunto de operações que determinam as ações possíveis, sendo os principais:
Identify: apresenta informações cadastrais gerais sobre o repositório.
ListMetadataFormats: exibe os formatos nos quais os metadados disponíveis podem ser exibidos para a coleta, considerando o que foi configurado no sistema.
ListSets: lista os dados dos registros agrupando-os de acordo com as coleções ou conjuntos de registros, nos casos em que o repositório digital está estruturado de forma hierárquica.
ListIdentifiers: fornece apenas os identificadores dos registros, sem que seus dados sejam exibidos.
ListRecords: exibe os registros completos, incluindo dados e metadados.
GetRecord: retorna dados de um registro específico, cuja consulta requer que seu identificador tenha sido fornecido.
A coleta de dados por meio do OAI-PMH é amplamente utilizada devido à padronização na estrutura de dados, à compatibilidade com múltiplos padrões de metadados – a exemplo de Dublin Core, MARC, MODS, METS – à facilidade de coleta incremental, que permite buscar apenas registros modificados ou adicionados em um intervalo de tempo específico. Esses três fatores otimizam o processo de reuso dos dados entre sistemas, ainda que possa necessitar de mapeamentos e compatibilizações.
O protocolo OAI-PMH pode ser configurado para exibir os dados armazenados no repositório digital em diferentes padrões de metadados.
Neste contexto, há de se considerar que cada padrão de metadados possui estrutura e granularidade próprios. Assim, há uma estreita relação entre os dados que estão armazenados no repositório digital e a necessidade da coleta para que seja possível definir qual é o melhor padrão de metadados utilizado para exibir e/ou coletar os registros.
Desta forma, é imprescindível compreender os dados disponíveis no provedor de dados, os dados objetivados pelo provedor de serviços e a estrutura dos padrões de metadados exibidos via OAI-PMH do repositório para identificar o que mais se adequa à necessidade e, com isso, requerer os dados necessários.
Ao estruturar a coleta automatizada de dados em repositórios digitais, é fundamental compreender os principais formatos de metadados expostos por meio do protocolo OAI-PMH. Esses formatos definem o modelo de representação dos registros que serão fornecidos e estruturam o intercâmbio de informações entre diferentes sistemas.
No caso do DSpace, os formatos de saída comumente disponíveis são:
O oai_dc é o formato mínimo obrigatório definido pela especificação OAI-PMH. Ele utiliza o padrão Dublin Core simples, composto por 15 elementos: Title, Creator, Subject, Description, Publisher, Contributor, Date, Type, Format, Identifier, Source, Language, Relation, Coverage, Rights.
A principal vantagem de uso está na capacidade de interoperabilidade, contudo, apresenta como limitação a baixa granularidade da representação.
O qdc estende o Dublin Core simples ao incluir qualificadores que permitem maior especificidade sem perder a compatibilidade com o padrão. É utilizado, por exemplo, para distinguir autores principais de orientadores, idiomas de resumo, tipos de documento.
A principal vantagem do uso do qdc está na maior expressividade quando comparado com o oai_dc, com melhor detalhamento dos metadados e sem comprometer a interoperabilidade.
O xoai é o formato de metadados interno e estendido do DSpace. Tal formato permite a exposição completa dos metadados registrados no repositório, inclusive aqueles personalizados pela instituição.
A principal vantagem da utilização do xoai está em fornecer/consumir todos os metadados disponíveis nos registros do repositório.
O mtd2-br é um formato criado pelo Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT) para o contexto do sistema de teses e dissertações brasileiro. Ele segue a estrutura do Modelo de Metadados para Teses e Dissertações (MTD-BR), versão 2.0, e contempla campos obrigatórios definidos para a comunicação entre repositórios e e Biblioteca Digital de Teses e Dissertações (BDTD).
Dentre as vantagens do mtd2-br está a alta padronização no contexto brasileiro, incluindo campos específicos como banca, orientadores e programas de pós-graduação. Como desvantagem, a criação de termos que existem apenas no contexto brasileiro e a falta de especificação acionável do padrão, fatores que prejudicam a semântica.
O oai_capes é uma iniciativa que tem como objetivo padronizar e qualificar a coleta de metadados de dissertações e teses dos repositórios institucionais, de forma a integrá-los com a Plataforma Sucupira. Tal padrão foi desenvolvido para que os registros disponíveis nos repositórios sejam adequadamente convertidos para o perfil de aplicação definido pela Rede RICA|PG, seguindo as necessidades do processo de avaliação da pós-graduação stricto sensu brasileira, conduzida pela Diretoria de Avaliação (DAV) da CAPES.
A coleta de metadados de teses e dissertações tem como um dos principais desafios a heterogeneidade das estruturas. Variações na forma de preencher campos (como autor, orientador ou programa de pós-graduação), ausência de identificadores persistentes (ORCID, Lattes, DOI) e inconsistências em campos críticos podem comprometer a integração de dados e dificultaR a avaliação da pós-graduação.
O oai-capes é uma das iniciativas da Rede RICA|PG para aprimorar o processo de coleta, oferecendo um formato único e controlado para exportação dos registros. Dessa forma, os repositórios digitais mantém a autonomia na estrutura e organização dos dados, e ao fornecer dados para coleta externa, os converte automaticamente para a estrutura de dados da CAPES, minimizando inconsistencias no consumo de registros.
O funcionamento do oai_capes pode ser compreendido a partir de cinco etapas:
Definição do Schema
Criação de um novo schema dentro do DSpace (ou outro repositório compatível), denominado oai_capes.
Esse schema define os campos de metadados que serão expostos e que correspondem ao perfil de aplicação da CAPES.
Crosswalk em XSLT
Desenvolvimento de arquivos de transformação (XSLT) que convertem os metadados internos do repositório (ex.: Dublin Core, DIM, MTD-BR) para o formato XML estabelecido pela CAPES.
A equipe RICA|PG disponibilizará um arquivo padrão, baseado nas estruturas dos repositórios digitais brasileiros. Caso haja divergência entre a estrutura de dados do repositório, haverá uma orientação de como o XSLT poderá ser adaptado à necessidade da instituição fornecedora de dados.
Registro no OAI-PMH
Configuração do repositório para reconhecer o metadataPrefix=oai_capes como formato válido. Esse registro assegura que o oai-capes será uma das formas de fornecimento de dados pela interface OAI-PMH do repositório digital.
Reindexação e Testes
Reinicialização dos serviços do repositório e execução de comandos como dspace oai import para atualizar os índices do OAI.
Testes de endpoints, para a certificação da qualidade de fornecimento de dados via oai_capes, disponível em ListMetadataFormats e da exibição dos registros em ListRecords.
Coleta Externa pela CAPES
A CAPES acessa os registros diretamente na interface OAI-PMH do repositório digital, utilizando o formato oai_capes.
Esses registros padronizados são então integrados as plataformas da CAPES, assegurando consistência e rastreabilidade.
Padronização Nacional: reduz variações de preenchimento entre diferentes instituições, assegurando uniformidade.
Qualidade dos Dados: exige campos essenciais (autor, orientador, programa, resumo, palavras-chave, identificadores) e corrige práticas inconsistentes (ex.: uso incorreto de metadados ou valores de dados).
Interoperabilidade: facilita a integração com sistemas nacionais e internacionais, tornando os registros mais visíveis e reutilizáveis.
Automatização: elimina retrabalho manual, permitindo que a coleta seja feita de forma contínua e incremental.
Confiabilidade: garante que os dados fornecidos pelo repositório digital estejam alinhados com o perfil de aplicação da avaliação da pós-graduação, utilizado pela Plataforma Sucupira.