Dado un conjunto de documentos de textos de evaluación llamado D que contienen opiniones ( o sentimientos) sobre un objeto, opinión mining tiene como objeto extraer atributos y componentes del objeto que han sido comentados en cada documento de D y determina si los comentarios son positivos, negativos o neutrales.
La información textual en el mundo puede ser ampliamente clasificada en dos categorías: hechos y opiniones. Los hechos son afirmaciones objetivas sobre entidades y eventos. Las opiniones son afirmaciones subjetivas que reflejan los sentimientos o percepciones de las personas sobre entidades y eventos. Muchas de las investigaciones existentes sobre el procesamiento de información de texto se ha (casi exclusivamente) centrado en la minería y en la recuperación de la información, búsqueda Web, y algunos otras minerías de texto y lenguaje natural de procesamiento de tareas. Pocos trabajos se han hecho sobre el procesamiento de opiniones hasta hace poco. Aún, las opiniones son tan importantes que si alguien necesita tomar una decisión quisiera escuchar otras opiniones. Esto no sólo es cierto para los individuos sino, también lo es para las organizaciones.
Una de las principales razones para la falta de estudio sobre opiniones es que hubo poco texto obstinado antes de la Word Wide Web. Antes de la Web, cuando un individuo necesitaba tomar una decisión, el o ella normalmente pedía opiniones a sus amigos o familiares. Cuando una organización necesita encontrar opiniones del público general sobre sus productos y servicios, lleva a cabo encuestas y grupos focalizados. Con la Web, especialmente con el crecimiento explosivo del contenido generado por el usuario en la Web, el mundo ha cambiado. Uno puede publicar comentarios de productos a los sitios de los comerciantes y expresar visiones en casi cualquier foro de internet, discusión o grupo, y blogs, los cuales son colectivamente llamados contenido generado por el usuario. Hoy en día, si uno quiere comprar un producto, no es necesario pedir opiniones a los amigos o familiares porque hay abundantes visiones de productos en la Web, en donde los usuarios existentes del producto brindan sus opiniones. Una compañía no necesita hacer encuestas, organizar grupos focalizados o desarrollar consultas externas para obtener opiniones o sentimientos de consumidores de sus productos y los de su competencia.
Encontrar fuentes de opiniones y controlarlas en la Web, sin embargo, puede ser una tarea formidable, porque cada fuente puede contener un gran número de información. En algunos casos, las opiniones están ocultas en grandes foros o blogs. Es muy difícil para un lector encontrar fuentes pertinentes, extraerlas, leerlas, resumirlas y organizarlas dentro de formatos utilizables. Un sistema automático de opinión maining y resumen es necesario. Opinion mining surge desde esta necesidad.
La búsqueda en opinion mining comienza con la identificación de la opinión (o sentimiento) utilizando palabras como grande, increíble, maravilloso, malo y pobre, por ejemplo. Algunos investigadores han trabajado en minería de palabras y han identificado sus orientaciones semánticas, como pueden ser positivas o negativas. Autores han identificado muchas reglas lingüísticas que pueden ser explotadas para identificar palabras de opinión y sus orientaciones desde un gran set de datos.
Modelo de opinion mining
En general las opiniones pueden ser expresadas sobre algún producto, servicio, tema, individuo, organización o un evento. El término general objeto se utiliza para designar a la entidad que ha sido objeto de comentarios. Un objeto tiene un conjunto de componentes (o partes) y un conjunto de atributos. Cada componente puede también tener sub-componentes y éstos a su vez conjuntos de atributos. Por lo tanto, el objeto se puede descomponer jerárquicamente sobre la parte base de la parte de la relación.
Un objeto es una entidad, la cual puede ser un producto, servicio, tema, individuo, organización o un evento. Éste está asociado con un par O:(T,A), donde T es una jerarquía o taxonomía de los componentes (o partes) y subcomponentes de O, y A es el conjunto de atributos de O.
En esta jerarquía o árbol, la raíz es el propio objeto. Cada nodo no raíz es un componente o subcomponente del objeto. Cada enlace es una parte de la relación. Cada nodo está asociado con un conjunto de atributos. Una opinión puede ser expresada sobre algún nodo o algún atributo del nodo.
Sin embargo, para un uso común, es demasiado complicado realizar una representación jerárquica. Para simplificar esto el árbol aplanado. La palabra “características” es utilizada para representar tanto a los componentes como atributos. Usar características para los objetos (especialmente productos) es bastante común en la práctica. Notar que en esta definición el propio objeto es también una característica, el cual es la raíz del árbol.
Definición de diagnóstico de opiniones:
El diagnóstico de opiniones de una característica f de un objeto O evaluado en d es un grupo de secuencias consecutivas en d que expresan opiniones positivas o negativas.
Esto significa que una secuencia de sentencias juntas puede expresar una opinión sobre un objeto o una característica del objeto. Es posible también que una sola frase exprese opiniones sobre más de una característica,
“La calidad de la imagen es buena, pero la batería dura poco”
OPINION MINING.Bing Liu, Department of Computer Science, University of Illinois @ Chicago