Se llama text mining a la extracción de información previamente desconocida y potencialmente útil de un cuerpo de datos textuales desestructurados, como por ejemplo, textos en lenguaje natural.
En text mining, cada documento es representado como un vector, cuya dimensión es aproximadamente el número de palabras claves (keywords) distintas que se encuentran en él. Este número, puede ser considerablemente grande. Uno de los mayores retos en text mining es clasificar estos datos textuales de tal “dimensionalidad”. Además de la “dimensionalidad”., los algoritmos de text mining deben lidiar con la ambigüedad de las palabras como pronombres, sinónimos, errores de ortografía, abreviaturas, acrónimos y errores de semántica. Estos algoritmos pueden clasificarse en dos tipos: algoritmos de aprendizaje supervisado y algoritmos de aprendizaje no supervisado.
El aprendizaje supervisado es una técnica en la que el algoritmo usa un predictor y un objetivo como forma de relacionar datos. El predictor es información sobre una forma especifica a detectar en el cuerpo de datos a analizar. El objetivo es el valor resultante de hallar el predictor. De esta forma, los algoritmos de aprendizaje supervisado, son “entrenados” con un conjunto de pares de predictor-objetivo previamente confeccionados para tal fin. Una vez entrenado, si un algoritmo de estas características puede asignar valores categóricos o numéricos a los valores de entrada que se le proporcionen. Los algoritmos que producen valores objetivo de tipo categórico se llaman algoritmos clasificadores, mientras que los que produzcan valores objetivo de tipo numérico se denominan algoritmos de regresión.
El aprendizaje no supervisado es una técnica en la que el algoritmo usa solo los valores de los atributos de tipo predictor. No incluye valores de tipo objetivo y la tarea de aprendizaje es el ganar cierto entendimiento sobre patrones y estructuras relevantes dentro de la información que se analiza. Algunas técnicas de aprendizaje no supervisado son: clustering y feature extraction.
Autor: Lic. Francisco Gindre (Investigador a cargo del grupo GDARIM)
Fuente: Text mining with support vector machines and non-negative matrix factorization algorithms.