Sobre o corpus
Disponível para consulta, até o momento, este projeto conta com um corpus de artigos científicos de diferentes áreas do conhecimento com cerca de 12,3 milhões de palavras.
Para a coleta de artigos do CAPB, buscou-se compilar um corpus não apenas representativo do gênero, mas também balanceado quanto ao tema. Berber Sardinha (2000) observa seis critérios para compilar um bom corpus, e foram nesses itens que nos baseamos: origem, propósito, composição, formatação, representatividade e extensão.
Assim, a fim de padronizar tanto a organização dos dados quanto os temas a serem coletados, foi utilizado o sistema de catalogação das diferentes Grandes Áreas determinadas pelo CNPq.
Para visualizar esses dados quantitativamente, a tabela disponível neste Link [1] especifica a quantidade de palavras, revistas e artigos científicos por Grande Área. Apesar de não estarem apresentados, por questão de espaço, todos os 2.898 artigos do projeto foram organizados por periódico e data da publicação, que não excedeu o período de uma década desde o começo da coleta, ou seja, todos os artigos coletados são posteriores a 2005.
Para mais informações sobre os procedimentos de coleta do corpus, ver o capítulo 4 da tese disponível neste link [2].
Acesso ao corpus: