Minería de textos

Recuperación y acceso a la información

Minería de textos

La minería de textos (text mining) es un conjunto de técnicas que permiten extraer información relevante y desconocida de forma automática dentro de grandes volúmenes (habitualmente) de información textual, normalmente en lenguaje natural y no necesariamente estructurada.

 

La principal diferencia con la minería de datos (data mining) es que en ésta última la información se obtiene normalmente de bases de datos, en la que la información está estructurada. Por este motivo es más sencilla la extracción de la información de una base de datos, que está pensada para que se pueda tratar su información de manera automática, al contrario a lo que ocurre en la minería de textos.

 

También es necesaria diferenciarla de lo que en el entorno Web se denomina búsqueda, ya que en una búsqueda en Web se busca información ya conocida, y que se ha puesto por escrito por otras personas.

 

Para qué sirve la minería de textos

Una de las aplicaciones más importantes que tiene la minería de textos es la clasificación de los textos web. En Internet existe un gran volumen de información, pero debido precisamente a ese tamaño es difícil en ocasiones encontrar lo que realmente se está buscando. Por este motivo es de utilidad poder clasificar y estructurar la información que se encuentra en la Web, para así poderla recuperar de una manera más eficiente. A este efecto se utilizan los tesauros como forma de codificar la información que se extrae de los textos.

 

Otro uso más comercial puede ser el análisis de los mercados a través de la Web, sacando qué productos son más demandados y cuales son las tendencias del mercado en base a la información que está disponible en Internet.

 

Herramientas y enlaces externos

 

Página realizada por Héctor Plaza López para la asignatura de Recuperación y acceso a la información

 



Más información


recuperación y organización de la información

Contenido