A delimitação da pesquisa e a constituição do corpus de análise

Bauer e Aarts (2002, p. 44), definem corpus como sendo “Uma coleção finita de materiais (textos, imagens ou sons) determinada de antemão pelo analista, com inevitável arbitrariedade, e com a qual se irá trabalhar”. No contexto dos estudos bibliométricos, tal arbitrariedade também se faz presente. A delimitação da pesquisa, pode variar, especialmente, do ponto de vista geográfico/espacial, temporal, temático, por tipologia documental ou por determinada base de dados. Um corpus de análise, precisa ser amplo o suficiente para possibilitar o estudo e a interpretação das semelhanças, diferenças, regularidades e irregularidades observadas. Os indicadores têm como objetivo subsidiar análises. Não são o fim, mas o meio para responder e discutir os problemas e questões da pesquisa.

As formas mais comuns de recuperação/coleta de dados e informações, visando a constituição de um corpus de análise, faz-se partir da recuperação de dados de uma ou mais base de dados, ou, por meio da seleção de um conjunto de documentos. É feita a delimitação de um período de tempo e a determinação de um recorte geográfico/espacial, possibilitando comparações (entre países, universidades, departamentos, cursos, pesquisadores, etc.).

De maneira generalizada, a comparação é amplamente utilizada nos estudos empíricos baseados na Bibliometria e Cientometria. Essas ocorrem entre países, organizações, indivíduos, etc., e, sua evolução temporal, são as mais comumente empregadas. A coleta dos dados para a constituição de um corpus de análise, é, frequentemente, censitária, ou seja, trabalha-se com o montante total (população) de documentos recuperados ou selecionados (mesmo que não seja comum, é possível o uso de amostragens)3.

A coleta de dados é realizada, sobremaneira, de duas diferentes formas, denominadas, no presente, de corpus “estático” (pré-definido) e corpus “dinâmico” (temática). Por corpus “estático” considera-se o conjunto de dados que previamente se conhece, cujo ponto de partida é, por exemplo, uma revista, um livro, um departamento, uma universidade, um pesquisador, etc. Tal método possui, como ponto positivo, dar maior controle aos dados.

O corpus “dinâmico” é construído a partir de determinada temática. Neste caso, não se sabe, previamente, o que será recuperado. Outra complexidade de se trabalhar com temáticas é o fato de poucas bases de dados possuem sistemas de recuperação da informação baseados em linguagens documentárias. Com isso, precisa-se construir uma estratégia de busca que possibilite maior precisão na recuperação da informação. Trata-se de um momento de fundamental importância para aumentar a qualidade e confiabilidade do estudo.

Notas


3 A diferença entre uma coleta de dados censitária e amostral pode ser mais bem compreendida por meio das palavras de Correia Neto (2009, p. 28): “Uma pesquisa censitária é aquela na qual toda a população  de interesse da pesquisa é consultada. [...] A amostra, por outro lado, requer a pesquisa com parte da população. Se essa amostra for significativa estatisticamente e os procedimentos da amostragem forem rigorosos, espera-se que os resultados reflitam o comportamento da população, mesmo que ela não tenha sido completamente pesquisada.”