Los sistemas de organización del conocimiento (SOC) tambien llamados Knowledge organization systems (KOS) en inglés, son recursos diseñados para el arreglo de la información en distintos ámbitos (archivos, ciencias, museos, fonotecas, bibliotecas, etc.) y dominios disciplinares, que permiten generar modelos de organización del conocimiento, útiles para el ordenamiento de recursos de información. Son vocabularios de referencia basados en términos que se agrupan en un conjunto de herramientas de organización de información como índices, esquemas de clasificación, nomenclátores, encabezamientos de materia, bases de datos léxicas, glosarios, vocabularios estructurados, taxonomías, tesauros, redes semánticas y ontologías que han tenido una evolución acelerada en la era digital debido a que son idóneos para estructurar, compartir y normalizar la información, en especial la literatura y algunas de ellas son protagonistas de la aplicación de las tecnología más novedosas como la semántica y los datos ligados.
La creación de un Sistema de Conocimiento requiere de un elevado esfuerzo intelectual y de un alto grado de consenso, lo cual se traduce en un proceso lento y laborioso. En los últimos años disciplinas como la Documentación, Ingeniería Ontológica y la Ingeniería del Software han reseñado las etapas comunes que existen en la creación de estos modelos. Por ejemplo los índices son listas detalladas y organizadas en orden alfabético del contenido de una base de datos y los tesauros o catálogos de palabras clave, que muestran la relación que existe entre diversos términos.
Para el desarrollo de SOC hay dos estándares: ANSI / NISO Z39.19-2005 y BS 8723. Estas normas se pueden considerar como un conjunto de recomendaciones basadas en técnicas y procedimientos preferidos para la construcción diferentes tipos de KOS, incluidos los que surgen en el entorno de red como así como los convencionales que han recibido atenciones renovadas como sistemas de almacenamiento y recuperación.
Los Sistemas / Servicios de Organización del Conocimiento (SKOS) son las especificaciones para modelar la estructura semántica subyacente de un dominio. Incorporados como servicios basados en la web, pueden facilitar el descubrimiento y la recuperación de recursos. Actúan como mapas de ruta semánticos y posibilitan una orientación común entre los indexadores y los futuros usuarios (ya sean humanos o máquinas).
Referentes mundiales de Sistemas de Organización de Conocimiento son los que han diseñado la Biblioteca del Congreso y la Biblioteca Nacional de Medicina de los Estados Unidos, entre los tesauros más usados en ciencias están el de la UNESCO, de la IEEE, el MesH y el Zoological Record y entre las ontologías estar las SPAR para literatura y Gene Ontology. Dentro de todos los sistemas de organización del conocimiento estos dos los tesauros y las ontologías resaltan por ser los más usados en la actualidad por lo que se se tratan con más profundidad a continuación.
Es un conjunto de palabras, que constituyen un idioma o que se utilizan más específicamente para describir un dominio particular del conocimiento. Se dividen en dos grupos:
Un Vocabulario no controlado es una colección no definida de palabras y frases relacionadas con un dominio particular de conocimiento, generalmente agregada libremente por una comunidad, en la cual los homónimos, sinónimos y ambigüedades similares de significado presentes en el lenguaje natural no se desambiguan formalmente. El mejor ejemplo de un vocabulario no controlado son las folksonomias un sistema de clasificación derivado de la práctica y el método de crear y administrar etiquetas de forma colaborativa para anotar y clasificar el contenido en un dominio particular. Así es, las etiquetas (tags) que se utilizan seguidas del símbolo gato (#) en blogs y redes sociales como twitter son folksomias.
Por el contrario, un vocabulario controlado es una colección de palabras y frases seleccionadas, relacionadas con un dominio particular de conocimiento utilizado para permitir la coherencia de la anotación de metadatos y la recuperación mejorada después de una búsqueda, en la que se desambiguan los homónimos, sinónimos y ambigüedades similares de significado presentes en el lenguaje natural.
Los tesauros y las ontologías son vocabularios controlados que permiten representar de manera jerárquica, organizada y definida un dominio específico y delimitado de información, con un propósito bien establecido. Es imprescindible recordar que siempre están asociados a una colección (en este caso bibliográfica), esto es, están diseñados para describir la literatura indexada en la base de datos a la que se asocian, en muchos casos se puede aplicar a otras colecciones y para otros propósitos, pero lo que determina sus características es esta función , de tal manera que referirse al tesauro o la ontología sin la colección o la entidad a la que se asocia no tiene sentido, porque se complementan y contextualizan mutuamente, tienen una relación biunívoca, por ejemplo:
Tesauro-ontología/Colección-entidad
MesH/Medline
Tesauro UNESCO/biblioteca UNESCO
Tesauro Zoological Record/Zoological Record
Tesauro IEEE/Colección IEEE
CAB/CAB abstracts
Gene ontology/genes
SPAR/literatura
Ambas están constituidas al menos por tres elementos: términos, relaciones (jerarquícas en los tesauros y semánticas en las ontologías y definiciones, e idealmente deben cumplir con especificaciones informáticas que faciliten su manejo, normalización e interoperatibidad como las establecidas por la WC3 y la NISOwww.niso.org/
Entre los tesauros y ontologías más utilizados en literatura biológica, médica y biomédica están:
Literatura
http://www.sparontologies.net/ontologies
Biontologías
Tesauros
La palabra tesauro proviene del latín thesaurus y del griego θησαυρός que siginifica tesoro, es un conjunto de términos o vocablos propios de determinada profesión, ciencia o materia (RAE, 2019). Este término se utiliza para referirse a información contenida y estructurada en un vocabulario controlado y dinámico de términos relacionados semánticamente y jerárquicamente, que se aplica a un campo específico del conocimiento (ISO 2788 1986). Se genera mediante la selección de términos del lenguaje natural, por lo tanto, está constituido por una lista de términos definidos, llamados descriptores relacionados por medio de equivalencias, jerarquías y asociaciones. Su principal función es describir y representar con detalle el contenido de los documentos de un dominio particular del conocimiento de manera normalizada para catalogar, buscar y recuperar más eficientemente y con mejor exactitud de una manera más fácil. Los componentes elementales de un tesauro son tres: los términos, las relaciones y las notas de alcance (NA), que contiene notas aclaratorias que delimitan conceptualmente al término de cada entrada.
De tal manera que un tesauro es un instrumento de control terminológico para la representación sistemática, jerárquica y organizada del conocimiento. Los términos que conformarán el tesauro constituyen un lenguaje controlado (a veces llamado artificial como antónimo del lenguaje natural), conformado por una lista establecida a priori, únicamente esos términos pueden ser utilizados para indexar los documentos y realizar las consultas basadas en el tesauro. En consecuencia, esos términos y sus relaciones estipuladas tienen una estructura semántica definida y establecida detalladamente que eficientizan la búsqueda, contrarrestando la inmensa variabilidad, flexibilidad y ambigüedad del lenguaje natural.
Los tesauros se pueden dividir con base en sus características distintivas en: monolingües o plurilingües, monojerárquicos o polijerárquicos, unidisciplinarios o multidisciplinarios, y pueden visualización y formalizarse usando distintas especificaciones como XML, RDF/RDFS o SKOS-Core.
Por último, entre las funciones más comunes de los tesauros están:
Representar, como modelo de conocimiento de un dominio
Indexar información, especialmente literatura
Recuperación de información
Representación de la interconexión y relaciones del universo de información representado en el tesauro
Análisis de literatura
Una de las herramientas más sofisticadas que se utilizan para organizar y procesar la información son las denominadas ontologías. Para la publicación de ontologías en la www se emplea el lenguaje de marcado OWL (Ontology Web Language), construido sobre RDF y codificado en XML. Podríamos decir que son una versión más completa y que presentan más posibilidades que los tesauros; posiblemente dentro de unos años el debate termine y se considere a los tesauros simplemente como los predecesores de las ontologías, estas herramientas informáticas e informacionales comúnmente usadas por los computólogos y especialistas en información y documentación y los científicos como parte de proyectos de investigación en informática científica.
La Web semántica plantea el panorama de una web donde el marcado de los documentos se realiza de forma “semántica”, es decir, utilizando etiquetas que expresan el significado de los elementos y no su formato. El objetivo es mejorar el Internet ampliando la interoperabilidad entre los sistemas informáticos y usando programas de agentes inteligentes (algoritmos), cuya funcionalidad es buscar información sin operadores humanos. Esta estructuración de datos en la web se basa en la creación de ontologías y lenguajes semánticos con suficiente capacidad expresiva y de razonamiento para representar la semántica de las ontologías, entre los que se destacan el lenguaje Resource Description Framework (RDF) y RDF Schema, y el OWL (Web Ontology Language) o lenguaje de ontologías para la web, una extensión del primero, con mayor poder expresivo que éste. (1)
Entre los directorios de ontologías más relevantes están:
El uso de ontologías proporciona mejores opciones de búsqueda y también ofrece una mejor búsqueda textual (2). Una ontología es una especificación explícita de una conceptualización. El término es prestado de la filosofía, donde una ontología es una cuenta sistemática de la existencia. Podemos describir la ontología de un programa mediante la definición de un conjunto de términos representativos. En una ontología las definiciones asocian los nombres de las entidades en el universo del discurso (por ejemplo clases, relaciones, funciones u otros objetos) con texto legible que describe lo que los nombres deben significar y axiomas formales que restringen la interpretación y el buen uso de esos términos (3).
Las ontologías pueden proporcionar el marco conceptual en el cual los procesos científicos y los flujos de trabajo pueden ser estructurados y compartidos para ser interoperables, proporcionando el contenido y el contexto de diálogos en línea dentro de comunidades virtuales (4).
Las ontologías pueden clasificarse de acuerdo a la cantidad y tipo de estructura de la conceptualización en: Ontologías terminológicas, que especifican los términos que son usados para representar conocimiento en el universo del discurso, suelen ser usada para unificar vocabulario en un campo determinado; ontologías de información, que especifican la estructura de almacenamiento de bases de datos, ofrecen un marco para el almacenamiento estandarizado de información; ontología de modelado del conocimiento, que especifican conceptualizaciones del conocimiento, contienen una rica estructura interna y suelen estar ajustadas al uso particular del conocimiento que describen (5). Y por otro lado, pueden clasificarse según su dependencia y relación con una tarea específica en: Ontologías generales, que representan conceptos generales que no son específicos de un dominio; ontologías de dominio, que describen un vocabulario relacionado con un dominio genérico; y ontologías de tareas, que proporcionan el vocabulario para describir términos involucrados en los procesos de resolución de problemas los cuales pueden estar relacionados con tareas similares en el mismo dominio o en dominios distintos (6).
Características
Los roles desempeñados por las ontologías se clasifican en tres categorías principales no son mutuamente excluyentes y una ontología puede tener uno o varios roles (7):
a) Gestión del conocimiento, incluyendo la indexación y recuperación de datos e información
b) Integración de datos, intercambio e interoperabilidad semántica; y
c) Soporte de decisiones y razonamiento.
Gestión del conocimiento. Uno de los principales roles de las ontologías biológicas es servir como fuente de vocabulario, es decir, una lista de nombres para las entidades representadas en estas ontologías. El componente terminológico de las ontologías biomédicas es un recurso importante para los sistemas de procesamiento del lenguaje natural y respalda tareas de gestión del conocimiento tales como la anotación (o indexación) de recursos, recuperación de información, acceso a la información y mapeo de recursos.
La indexación se usa principalmente en referencia a la asignación de entradas de un vocabulario controlado a documentos, por ejemplo, la literatura biomédica. La indexación de documentos clínicos generalmente se conoce como codificación, y las ontologías biomédicas a veces se llaman "conjuntos de códigos". Los prototipos de ejemplo incluyen el Medical Subject Headings (MeSH) un vocabulario controlado para la indexación y recuperación de la literatura biomédica, y el GO utilizado para la anotación funcional de productos de genes en varias docenas de organismos modelo, sin embargo, muchas otras ontologías han sido utilizadas con estos propósitos: la Clasificación Internacional de Enfermedades (CIE) se ha utilizado durante más de un siglo para codificar la morbilidad y la mortalidad; SNOMED CT se está adoptando como una terminología estándar para registros electrónicos de salud por un número creciente de países y también se ha evaluado como una fuente de vocabulario para la investigación clínica; Metathesaurus UMLS en su conjunto también se ha utilizado para apoyar la codificación de documentos clínicos, como informes de patología quirúrgica.
La función principal de la indexación de grandes colecciones de documentos, como MEDLINE, es la de admitir una recuperación precisa, es decir, con alta recuperación y alta precisión. El UMLS y el MESH, al proporcionar listas de sinónimos, relaciones entre conceptos, categorización de alto nivel e información de co-ocurrencia, juegan un papel importante en la recuperación de varios tipos de documentos, principalmente de literatura biomédica, además debido a que proporcionan términos en varios idiomas, también se han usado para la recuperación de información en varios idiomas
Integración de datos, intercambio e interoperabilidad semántica
Las ontologías admiten la integración de datos de dos maneras diferentes, que corresponden a dos enfoques diferentes para la integración de datos: almacenamiento y mediación. Por un lado, al proporcionar un vocabulario controlado en un dominio determinado, la ontología admite la estandarización requerida desde los enfoques de almacenamiento para la integración de datos, en la que las fuentes que se van a integrar se transforman en un formato común y se convierten a un vocabulario común. Por otro lado, los enfoques basados en la mediación usan ontologías para definir un esquema global (en referencia a qué consultas se realizan) y mapeo entre el esquema global y los esquemas locales (los esquemas de las fuentes a integrar). Por ejemplo, el UMLS es usado (junto con GO) para la creación de un esquema global en la ontología OntoFusion.
Soporte de decisiones y razonamiento. Los sistemas de apoyo a las decisiones clínicas generalmente se benefician de las ontologías de dos maneras principales. En primer lugar, las ontologías proporcionan un vocabulario estándar para las entidades biomédicas, lo que ayuda a estandarizar e integrar las fuentes de datos. En segundo lugar, las ontologías son una fuente de conocimiento de dominio computable que puede explotarse para fines de apoyo a la toma de decisiones, a menudo en combinación con reglas comerciales.
Una de las mejores exposiciones sobre ontologías con una aplicación divertida es la de la BBC
Al apoyar el procesamiento de alto rendimiento de datos biológicos y clínicos, las ontologías son un componente del enfoque basado en datos para la investigación biomédica, sinérgico con el enfoque tradicional basado en hipótesis. Además, la minería de datos a menudo opera en conjuntos de datos resultantes de la integración de recursos heterogéneos, también respaldados por ontologías.
Referencias
1. Mukherjea S. Information retrieval and knowledge discovery utilising a biomedical Semantic Web. Brief Bioinform. 2005;2. Shrivastav S, Kumar S, Kumar K. Towards an ontology based framework for searching multimedia contents on the web. Multimed Tools Appl [Internet]. 2017 Sep 18 [cited 2017 Dec 4];76(18):18657–86. Available from: http://link.springer.com/10.1007/s11042-017-4350-53. Gruber TR. A Translation Approach to Portable Ontology Specifications. Appear Knowl Acquis [Internet]. 1993 [cited 2017 Dec 4];5(2):199–220. Available from: http://tomgruber.org/writing/ontolingua-kaj-1993.pdf4. Pertsas V, Constantopoulos P. Ontology-Driven Extraction of Research Processes. [cited 2017 Dec 4]; Available from: http://www.semantic-web-journal.net/system/files/swj1668.pdf5. van Heijst G, Schreiber AT, Wielinga BJ. Using explicit ontologies in KBS development. Int J Hum Comput Stud [Internet]. 1997 Feb 1 [cited 2017 Dec 4];46(2–3):183–292. Available from: http://www.sciencedirect.com/science/article/pii/S10715819969009076. Guarino N, Oberle D, Staab S. What Is an Ontology ? [cited 2017 Dec 4]; Available from: http://iaoa.org/isc2012/docs/Guarino2009_What_is_an_Ontology.pdf7. Bodenreider O. Biomedical Ontologies in Action: Role in Knowledge Management, Data Integration and Decision Support.8.Tesauro || Thesaurus - glossariumBITri. (2019). Glossarium.bitrum.unileon.es. Retrieved 15 May 2019, from http://glossarium.bitrum.unileon.es/Home/tesauroREFERENCIAS
Suárez Sánchez, A. (2017). Sistemas para la organización del conocimiento: definición y evolución histórica. E-Ciencias De La Información, 7(2), 1. doi:10.15517/eci.v7i2.26878Organización del conocimiento, Sistema de || KOS - glossariumBITri. (2019). Glossarium.bitrum.unileon.es. Retrieved 17 May 2019, from http://glossarium.bitrum.unileon.es/Home/organizacion-del-conocimiento-sistema-de