Minería de textos
La minería de textos (text mining) es un conjunto de técnicas que permiten extraer información relevante y desconocida de forma automática dentro de grandes volúmenes (habitualmente) de información textual, normalmente en lenguaje natural y no necesariamente estructurada.
La principal diferencia con la minería de datos (data mining) es que en ésta última la información se obtiene normalmente de bases de datos, en la que la información está estructurada. Por este motivo es más sencilla la extracción de la información de una base de datos, que está pensada para que se pueda tratar su información de manera automática, al contrario a lo que ocurre en la minería de textos.
También es necesaria diferenciarla de lo que en el entorno Web se denomina búsqueda, ya que en una búsqueda en Web se busca información ya conocida, y que se ha puesto por escrito por otras personas.
Para qué sirve la minería de textos
Una de las aplicaciones más importantes que tiene la minería de textos es la clasificación de los textos web. En Internet existe un gran volumen de información, pero debido precisamente a ese tamaño es difícil en ocasiones encontrar lo que realmente se está buscando. Por este motivo es de utilidad poder clasificar y estructurar la información que se encuentra en la Web, para así poderla recuperar de una manera más eficiente. A este efecto se utilizan los tesauros como forma de codificar la información que se extrae de los textos.
Otro uso más comercial puede ser el análisis de los mercados a través de la Web, sacando qué productos son más demandados y cuales son las tendencias del mercado en base a la información que está disponible en Internet.
Herramientas y enlaces externos
Página realizada por Héctor Plaza López para la asignatura de Recuperación y acceso a la información
Más información
- Evaluación de buscadores web
- Metadatos y documentos XML/RDF para recuperación
- Lenguajes de recuperación para la Web I
- Lenguajes de recuperación para la Web II
- Bases de datos nativas en Internet y sistemas para almacenar y recuperar documentos HTML, RDF y XML
- Modelos de recuperación I
- Motores de recuperación de documentos XML/RDF
- Procesamiento del Lenguaje Natural para recuperación de información
- Usabilidad y accesibilidad en el posicionamiento y en la recuperación de información
- Extracción de información
- Extracción y recuperación de información I
- Extracción y recuperación de información II
- Extracción y recuperación de información III
- Ontologías de metadatos y su fusión y mapeados de ontologías
- Sistemas de Question-Answering
recuperación y organización de la información
Contenido