Data Mining applied to the detection of figures made ​​by children

Introduction

In order to determine whether a drawing done by a child between 3 and 6 years of age is a circle or not, an image processing consisting of three stages is performed:

Feature extraction

    Finalizada la etapa de pre-procesamiento, se procede a la extracción de características de las imágenes para su posterior análisis. Para la detección de círculos, se aplica un script realizado en Matlab que automáticamente rotula cada una de las figuras obtenidas en una imagen y extrae ciertas propiedades de las mismas. Las propiedades obtenidas de la figura son:

    Una vez obtenidos los valores correspondientes a estas propiedades, se emplea una serie de scores o puntajes que permiten la realizar la comparación entre el círculo efectivamente dibujado por el niño y un “círculo perfecto” que posea las mismas características. Estos puntajes permiten evaluar las similitudes y diferencias entre el círculo dibujado y el “círculo perfecto”.

    A continuación se muestran algunos de los puntajes desarrollados para tal fin. Todos los puntajes fueron creados de manera tal que devuelvan resultados entre cero y uno para simplificar el análisis estadístico posterior y la interpretación de los resultados.

El primer score (Score 1) corresponde a la comparación de los diámetros más corto y largo de la figura. En el caso del círculo perfecto, dicho score es igual a 1. Por lo tanto, cuanto más cercano a 1 sea el valor calculado para la figura dibujada por el niño, más características de círculo tendrá la misma.

El segundo score (Score2), compara el área de la figura dibujada, con el área de un círculo perfecto de radio igual al promedio entre el eje mayor y el menor de la misma. Para ello se emplea la fórmula

Cuanto más parecidas sean las áreas de la figura dibujada y del círculo perfecto, más cercana a 1 será dicha puntuación.

El tercer score (Score 3) compara el perímetro de la figura dibujada por el niño con el perímetro del círculo perfecto calculado según la fórmula

    Al igual que en los scores anteriores, se desarrolló una métrica de manera tal que, cuanto más cercano a 1 sea el valor obtenido de la comparación, mayores características de círculo tendrá la figura graficada por el niño.

    Finalmente el script genera un archivo con los datos numéricos que, de aquí en adelante, representan a la figura original. Esta última ahora es descartada del procesamiento y remplazada por estos datos numéricos que la caracterizan.

Para cada imagen se almacena:

La siguiente fase consiste en el Análisis Estadístico de los datos anteriormente obtenidos.

Analysis of the extracted features from the circles

    Para el análisis de los círculos se tomó un set de datos con 90 casos (con un caso excluido por no presentar condiciones aptas para el análisis) en los que se consideraron las variables:

    En el caso de la excentricidad, el valor 0 corresponde a un “círculo perfecto” mientras que el valor 1 corresponde a una “línea recta”, por lo cual los valores cercanos a 0 indican que la figura dibujada se parece más a un círculo que aquellas con valores cercanos a 1. Para dicho análisis se utilizó una “técnica de agrupamiento de datos” (“Cluster analysis”).

    Las técnicas de agrupamiento detectan patrones naturales en base a las similitudes y diferencias de los datos. En este caso se optó por emplear el algoritmo de clustering Two-Step , dado que este provee buenos resultados al procesar variables continuas y determina automáticamente la cantidad de clusters (o conglomerados).

    

    Otras razones para la elección de este algoritmo son que el mismo resulta robusto aun cuando no se cumpla alguna de las hipótesis y que permite trabajar conjuntamente con variables cualitativas y cuantitativas.

The processing results

    Como se puede observar en la siguiente tabla el algoritmo determinó la existencia de 2 conglomerados.

    En el “Conglomerado 1” se agruparon la mayoría de los casos (95,5% de los casos incluidos en el análisis). En este grupo se ubican las figuras que más semejanza tienen con el “Círculo perfecto”. Las imágenes agrupadas en el “Conglomerado 2” corresponden a las figuras que menos similitud tienen con el círculo perfecto y constituyen apenas el 4,5% de los casos, como se puede observar en la siguiente figura.

    La tabla siguiente muestra los valores medios y las desviaciones correspondientes a cada una de las variables analizadas en ambos conglomerados.

Results interpretation

    Como puede observarse de los resultados anteriores, los valores medios obtenidos para los Scores 1, 2 y 3 en el conglomerado 1 son mucho más cercanos a “1” que en el conglomerado 2. Esto indica que las imágenes agrupadas en el conglomerado 1 tienen características mucho más cercanas a un “círculo perfecto” que las agrupadas en el conglomerado 2.

    Asimismo, las desviaciones típicas para dichos scores son menores en el conglomerado 1 que en el 2, lo cual indica una mayor concentración de casos para los tres scores alrededor del valor promedio en el conglomerado 1.

    A pesar de que en el conglomerado 2 se ubican muy poca cantidad de figuras, existe una alta variabilidad (superior al 30% para los tres scores) en relación al valor medio. Esto sugiere que en el conglomerado 2 se ubican figuras que están muy lejanas de parecerse a un círculo perfecto.

    En relación a la excentricidad, en ambos conglomerados se presentan valores medios altos para lo que sería un círculo perfecto. Esto podría deberse a que los niños entre los 3 y 4 años de edad tienden a dibujar elipses.

Sin embargo, teniendo en cuenta que para dicha característica los valores cercanos a cero indican un “mayor grado de circularidad”, las figuras agrupadas en el “conglomerado 1” tienen mayores características de círculo que las clasificadas en el “conglomerado 2”.

    En relación a la edad, los casos agrupados en el conglomerado 1 presentan una edad promedio levemente superior a los del conglomerado 2 (tres años y medio) si bien no existen diferencias significativas entre ambos conglomerados.

    Este último resultado puede explicarse considerando las posibilidades evolutivas de los niños: a partir de los 3 años de edad, graficar un círculo es una tarea relativamente sencilla y asequible.

Relevance of the considered variables according to the conglomerate

    En la siguiente sección se analiza la importancia de cada una de las variables consideradas en los dos conglomerados. El método empleado para efectuar este análisis fue el Ajuste de Bonferroni, consistente en una prueba de hipótesis, efectuada con un nivel de significación del 5%. Para ello se contrastan dos hipótesis excluyentes.

En este caso las hipótesis contrastadas (para las variables: Score1, Score2, Score 3, Excentricidad, Edad) son:

    Si el valor obtenido (t de Student) a partir de la muestra (indicado por la barra roja en los siguientes gráficos) se encuentra entre los valores críticos (valores teóricos límíte indicados por las líneas azul y verde en los gráficos), se admite que la variable estudiada no es significativa dentro del conglomerado correspondiente. En caso contrario, se admite que hay suficiente evidencia muestral para considerar que la variable estudiada significativamente distinta de la media global y, en consecuencia debe ser considerada como relevante dentro del conglomerado y debe ser tenida en cuenta.

    Del gráfico anterior se concluye que la diferencia entre el diámetro mayor y el menor de una figura debe ser tenida en cuenta dentro del conglomerado 1, pero no resulta significativa en el conglomerado 2.

    Según lo observado en el gráfico anterior, la diferencia entre el área de la figura graficada por el niño y el área del círculo perfecto, es una variable significativa en ambos conglomerados.

    Como se desprende del gráfico anterior, la diferencia entre el perímetro de la figura dibujada por los niños y el perímetro del círculo perfecto, no resulta significativa en ninguno de los dos conglomerados.

    En el gráfico se puede observar que la excentricidad resulta una variable relevante en el conglomerado uno, pero no lo es en el conglomerado 2.

    En relación a la edad se puede concluir que no es una variable relevante para evaluar si la figura graficada por un niño es un círculo o no, ya que no se observa una diferencia significativa entre la edad media de la población global y la edad media dentro de cada conglomerado.

General conclusions

The analysis of the results thrown by the clustering algorithm suggests that:

Author