Coordenadas Paralelas

A visualização de Coordenadas Paralelas, proposta por Inselberg e Dimsdale (1990), consiste em mapear um espaço n-dimensional em uma estrutura bidimensional que utiliza n eixos eqüidistantes denominados coordenadas (BENDIX; KOSARA; HAUSER, 2005; NASCIMENTO; FERREIRA, 2005).

Os eixos verticais representam as dimensões ou atributos de dados. Uma linha representa cada item de dado conectado aos eixos com os seus respectivos valores, permitindo a visão de padrões.

Os eixos verticais são padronizados em uma escala que varia do menor ao maior valor do atributo. Para representar uma base de dados com x atributos, x = (x1 ,x2 ,...,xn ), necessita-se a mesma quantidade de coordenadas, isto é, a representação de x1 na coordenada 1, x2 na coordenada 2 e assim por diante até a representação de xn na coordenada n.

Coordenadas paralelas na linguagem R:

Pacote: MASS

Função:

parcoord(x, col = 1, lty = 1, var.label = FALSE, ...)

Parâmetros:

  • x – base de dados;

  • col – propriedade cor (vetor);

  • lty – tipo de linhas (vetor);

  • var.label – valor lógico que indica a necessidade de layout.

Exemplo da técnica de visualização da coordenadas paralelas

Exemplo de utilização da técnica de visualização com base de dados público:

A Figura abaixo representa a técnica de visualização denominada coordenadas paralelas. Utilizou-se a base de dados pública extraída do vestibular do ano de 2005 da Universidade Estadual de Maringá. A ideia de utilizar o gráfico é é visualizar o grupos formados pelo algoritmo K-means.

Após aplicar o algoritmo de agrupamento (k-means) na base de dados, obteve-se os seguintes grupos, que foram dividido em cores na visualização:

  • linhas pretas – Candidatos reprovados com o total de pontuação igual a zero.

  • linhas vermelhas – Candidatos desclassificados com o total de pontuação inferior a aproximadamente 754 (metade do total de pontuação obtida pelo candidato classificado em primeiro lugar que foi 1508).

  • linhas azuis – Candidatos desclassificados com o total de pontuação superior a aproximadamente 754.

  • linhas verdes - grupo de candidatos que obtiveram as melhores pontuações.

Código em linguagem R que gerou a visualização abaixo:

> x <- uem_2005.txt' #carregar a base de dados uem

> y <- x[-4]... # selecionar os atributos de interesse

> cl<-Kmeans(x,5,method = "euclidean") #agrupar a base

> parcoord((x), col = cl$cluster) #gerar a visualização


Referências:

BENDIX, F.; KOSARA, R.; HAUSER H. Parallel sets: visual analysis of categorical data. In: IEEE SYMPOSIUM INFORMATION VISUALIZATION, 5., Washington, 2005, Proceedings... Washington: IEEE Computer Society, 2005. p. 133–140.

NASCIMENTO, H.; FERREIRA, C. Visualização de Informação – uma abordagem prática. In: CONGRESSO DA SOCIEDADE BRASILEIRA DE COMPUTAÇÃO, 25., 2005, São Leopoldo. Anais... São Leopoldo: Unisinos, 2005. p. 1262-1312.

INSELBERG, A. DIMSDALE, B. Parallel coordinates: a tool for visualizing multidimensional geometry. In: CONFERENCE ON VISUALIZATION ’90, 1., 1990, San Francisco. Proceedings… Los Alamitos: IEEE Computer Society, 1990. p. 23-26.