Cabral, V. R. (1998). Estatística do discurso: Exame de indicadores com potencial de diferenciação. Revista Portuguesa de Psicologia, 33, 23-35.

Resumo

Encontra-se bem estabelecido na literatura o valor que a riqueza ou diversidade do vocabulário apresenta para a investigação das diferenças formais entre os estilos de codificação do pensamento no discurso. O estudo dos aspectos de que se reveste a codificação linguística na perspectiva da análise textual tem, todavia, sido empreendido de modo virtualmente exclusivo na área da linguagem escrita, muito embora a sua produção tenha subjacentes processos que decorrem num tempo diverso do tempo real da comunicação falada. Para assegurar uma compreensão mais completa deste problema recortaram-se no Corpus de Frequência do Português Fundamental três grupos de textos por transcrição de 40 entrevistas de 500 palavras cada, recolhidas junto dos sujeitos provenientes de populações constratadas pelo nível de alfabetização. Os 3 conjuntos de 20.000 palavras foram tratados por meio dum programa de análise textual construído para o efeito e permitindo calcular estatísticas type-token, estatísticas de entropia e estatísticas baseadas em classes de frequência. Nestas modalidades de quantificação foram encontradas variações sistemáticas em função do nível de instrução que se demonstra ser caracterizado eficazmente pelas taxas de diversidade lexical e pelos parâmetros de informação que com elas se relacionam.

Abstract

It is well established the value of “lexical richness” to the knowledge of formal differences among styles of encoding in the written discourse. There is a deficit of knowledge concerning the behavior of parameters recognized in the literature as being able to describe related properties of lexical richness in the spoken language. The same is to be said about the relation between the spoken and literacy from the same point of view. Three segments of 20.000 word length sampled in the CPF, the Corpus of spoken Portuguese, from standard blocks of 500 word length interviews with subjects selected in populations contrasted by their instruction level. The texts have been runned with a text analysis software. A listo f type-token, entropy and word-class frequency statistics has been calculated for each of them. Maximum rank correlation has been observed between these vocabulary richness related statistics and literacy.

Texto integral / Full text