Los documentos digitales se caracterizan, en primer lugar, por su soporte electrónico. En este sentido, se habla de «desencuadernar los documentos» o de poner a disposición del lector la información liberada de las ataduras del soporte físico en papel u otros materiales y, más específicamente, de la estructura de la información en un volumen. Sin embargo, muchos documentos digitalizados son meras reproducciones de la información creada en soportes analógicos en un formato digital secuencial. Su razón de ser es la facilidad de divulgación que permite la red para textos creados y pensados como documentos tradicionales. Proyectos como el Gutemberg tienen como primera misión volver accesibles un conjunto de textos lo más amplio posible, sin tener en cuenta ni las condiciones del formato ni la calidad del texto transmitido. En un sentido más restrictivo, muchas empresas o instituciones digitalizan el conjunto de documentos en papel para conservar un archivo reducido en su disposición física. Un ejemplo de ello ha sido el primer proceso de digitalización que sufrieron las historias clínicas en los hospitales.
No obstante, los documentos digitales virtuales no son meras transposiciones de las generadas o pensadas para su consumo en papel [ver la distinción entre documentos electrónicos, virtuales e hipermedia en el capítulo 1]. La verdadera naturaleza de este tipo de documentos es la de ser navegables de manera no secuencial, es decir, su capacidad hipertextual (Nelson, 1981). Se trata de un desarrollo de la idea original de Vannevar Bush (1945) sobre la posibilidad de idear un mecanismo que enlazara dos conjuntos de información, que llamó MEMEX. La propia denominación del lenguaje HTML (Hyper Text Language Mark) –el lenguaje ideado por Berners Lee– en la actualidad el más extendido en la creación páginas web, muestra su naturaleza de lenguaje de etiquetado/marcado hipertextual (no lineal). Sus características básicas son que
Emplea lenguajes de codificación descriptivos, que incorpora marcas (etiquetas, en español) al texto. Tiene como origen el trabajo de William W. Tunnicliffe (1967).
Define una estructura jerárquica de documentos, con elementos y componentes relacionados.
En las etiquetas se añade información de su estructura y presentación. Esto ofrece una especificación formal completa del documento. Existen tres tipos de marcado: de presentación (que permite maquetar un texto para su lectura); de procedimientos (permite presentar un texto dando instrucciones al software, ej.; Tex, PostScript); y descriptivos (que describen los párrafos, pero no cómo se representan; ej.: XML y SGML).
El conjunto de convenciones de señalización o etiquetado es limitado, por lo que es posible emplear conjuntos flexibles de etiquetas.
Los documentos son legibles y navegables.
El grado máximo de hipertextualidad es la propuesta denominada Xanadú. Se trata de un proyecto inconcluso liderado por Theodor Holm Nelson (1960), el profesor de la Universidad de Southampton que acuñó los términos hoy extendidos «hipertexto» e «hipermedia». Xanadú es una prefiguración de la actual WWW, que propone extender el conocimiento mundial mediante la creación de un gran documento global navegable gracias a la interconexión del máximo posible de ordenadores. Su concreción sería un extenso mar de documentos relacionados por hipervínculos, la generación de nuevo conocimiento mediante un sistema de transclusión y un novedoso sistema de gestión de derechos de autor (transcopyright).
El documento digital es, por tanto, un documento virtual con una estructura de la información que permite al lector navegar el texto de forma secuencial o no secuencial. Los componentes de esa estructura son de tres tipos:
Nodos o secciones. Se trata de una parte de un documento digital
Enlaces. Son uniones que enlazan nodos entre sí para permitir su navegación. El hiperlector salta de nodo a nodo según su interés, construyendo lecturas diferentes. Pueden llevar a anclajes dentro de un mismo documento (por ejemplo, «ir a página 2.1.») o enviar fuera a otra dirección de internet (por ejemplo, «ir a la UAM»).
Anclajes. Son el punto exacto de destino al que remiten los enlaces. Pueden existir varios dentro de una misma página (por ejemplo, «subir») o dentro de un documento.
Este sistema permite navegar las diferentes páginas de forma diferente a como leemos un libro, en forma secuencial. El lector salta de unas páginas a otras de una forma más libre y adecuada a sus intereses, liberándose de las rígidas estructuras pasadas. Para que la lectura sea eficaz, se requiere
una interfaz intuitiva para navegar sin obstáculos;
un cálculo de las posibles estructuras de navegación;
posibilidades de acceso a varios usuarios e, incluso, su participación; y
diferentes posibilidades de buscar y recuperar la información.
[Práctica. Aprende a usar eliminadores de contenido para una impresión limpia o archivar textos de internet, como Printliminator o Readability.]
Como todo documento, los digitales poseen propiedades características. Existen varias formulaciones al respecto. Aunque no todas se cumplan o lo hagan en diferentes grados, se citan de forma recurrente las siguientes: digitalidad, conectividad, multisecuencialidad, estructura en red, multimedialidad, gradualidad, extensibilidad, interactividad, usabilidad, accesibilidad, reusabilidad, dinamismo, transitoriedad y apertura. Desde el punto de vista documental (Codina, 2002), destacan por su peculiaridad con respecto al documento tradicional la autoría, el grado de navegabilidad, la conectividad, los metadatos y la estructura.
Autoría. La constancia de la autoría, con respecto a los documentos escritos, es ínfima. Numerosos documentos ocultan esta información de forma interesada, maliciosa o por dejadez. Podría clasificarse en: anónima, implícita (razón comercial o institucional sin más) y explícita (con varios niveles de detalle).
[Práctica. Visita el Centro de Estudios Cervantinos y el centro de dianética y comprueba el grado de ocultación de la autoría de la página y los textos]
Grado de navegabilidad. Los documentos permiten navegarlos en distinto grado. La evolución desde los primeros documentos hasta la actualidad ha permitido incorporar nuevas posibilidades de hipervinculación. Pueden distinguirse los siguientes tipos de hipertexto:
Grado 1. Se trata de documentos digitales en los que no se incluyen elementos de navegación o no se han pensado: la estructura es caótica y la falta de instrumentos de navegación conduce a la desorientación del lector («desbordamiento cognitivo»).
Grado 2. Se trata de documentos digitales que incluyen sumarios o índices.
Grado 3. Aquellos que, además de lo anterior, incorporan un sistema de recuperación de información que permita acceder a los datos sin navegar las páginas.
Grado 4. Aquellos que, además, incorporan otros sistemas de navegación.
[Práctica. Accede dentro de DocTrad a los conceptos Recuperación de Información e ISBN de todas las formas que se te ocurran. ¿En qué grado de navegabilidad lo situarías? Visita ahora la revista amateur de alpinismo Sinnivel, navégala e intenta comprender su estructura]
Conectividad digital
Se trata de la disposición del conjunto de enlaces. Existen dos dimensiones:
Micronavegación. Es la posibilidad de desplazarse dentro de un mismo documento digital. Según el grado de navegabilidad, su conectividad puede ser mínima (a través del sumario), media (sumarios locales en las páginas) o masiva (todo lo anterior, más índices). El nivel máximo sería una navegación semántica.
Macronavegación. Es la posibilidad que ofrecen los enlaces de ir desde un documento a documentos de la red relacionados o de acceder al primero desde otros muchos. Posee dos dimensiones: Luminosidad (el número de enlaces que parten hacia otras documentos y su calidad) y visibilidad (el número de citas en otras páginas que remiten a nuestro hiperdocumento). Esta última característica es decisiva a la hora de calcular la relevancia de una dirección electrónica en un motor de búsqueda.
[Práctica. Calcula en altavista la visibilidad de la página web de la UAM y de un blog personal cualquiera. Emplea la fórmula link:dirección electrónica.]
Metadatos
La ingente cantidad de información en la red ha obligado a recurrir a sisemas de catalogación y descripción de los recursos para mejorar su búsqueda y recuperación. Los metadatos (o metainformación) en internet son conjuntos de datos que describen un documento digital y que permiten identificarlo, describirlo y localizarlo. En un documento tradicional, los metadatos constituyen la ficha catalográfica y, todas las fichas de una biblioteca conformarían el catálogo o repertorio bibliográfico completo. Las fichas se rigen por unas reglas de catalogación y, desde la automatización, por formatos que agilizan el proceso de búsqueda y el intercambio entre bibliotecas. El más conocido es el formato Machine Readable Cataloging [MARC]
En el contexto de internet, los «Metadata is machine understandable information about web resources or other things» (Berners-Lee, 1997). Casi todos los documentos digitales suelen incorporan metadatos. Habitualmente recogen información sobre el contenido, los aspectos formales, el copyright, la autentificación y el contexto (calidad, accesibilidad).
Existen numerosos sistemas que intentan normalizar el empleo de metadatos; algunos de ellos son: Metadata Object Description Schema (MODS), derivado de MARC 21; Encoded Archival Description (EAD) un proyecto para marcar los textos digitales de las Humanidades; Metadata Resources for Digital Libraries del IFLA; Metadata Encoding and Transmission Standard(METS) , un sistema de descripción de objetos en bibliotecas mantenido por la Library of Congress; MetaMap, un curioso sistema de descripción gráfica de la información científica desarrollado en Montreal;etc. Sin embargo, existen dos sistemas que son los más extendidos:
HTML. Habitualmente los sitios web emplean un sistema de etiquetas estándar HTML. Se trata de una etiqueta en el encabezamiento de una página que permite a los buscadores reconocerla y clasificarla de manera automática y precisa. Veamos un ejemplo sencillo:
<html>
<head>
<meta name=”author” content=”Jose Ramon Trujillo”>
<meta name=”keyword” content=”digital publishing, information retrieval, relational databases, epub”>
<meta name=”keyword” content=”doctrad, edición digital”>
</head>
</html>
Esta sería una buena estructura de página. Es más completa: identifica tipo de documento, lengua y juego de caracteres:
<!DOCTYPE HTML>
<html lang="es">
<head>
<title>Título de la página…</title>
<meta charset="UTF-8">
<meta name="description" content="Descripción de la página…">
</head>
<body>
<h1>… </h1>
<p>…</p>
</body>
</html>
Dublincore. http://dublincore.org/ Es el sistema normalizado más usado para recursos documentales en internet, muy especialmente en instituciones académicas y de investigación. Desarrollado en 1995 por la Online Computer Library Center (OCLC), su fin es describir, identificar y facilitar la búsqueda en internet de cualquier documento digital. Su empleo sistemático multiplicaría la capacidad y funcionalidad de los motores de búsqueda. En la actualidad consta de 15 etiquetas http://dublincore.org/documents/dcmi-terms/ que permiten identificar de forma muy concreta cualquier recurso electrónico, pero que exigen un gran esfuerzo descriptivo:
La ventaja de Dublincore se derivada de su exhaustividad y estandarización, y se ve multiplicada por haberse convertido en un modelo de descripción de datos semántico. Su facilidad de uso lo ha llevado a incorporarse con otros sistemas, incluido HTM, XML, etc. En los últimos años, Dublincore se ha desarrollado sin cesar y ha incorporado numerosos elementos refinados de los mencionadas etiquetas y recomendaciones de uso de tesauros en su descripción. A continuación se transcribe un esquema de DCMI Metadata Terms:
[Tema en PDF]