Documentos XML bien formados y válidos
Un documento XML se considera "bien formado" (well-formed) cuando cumple con las reglas y la estructura sintáctica especificada en las normas del lenguaje XML. Un documento XML bien formado debe seguir una serie de pautas para ser considerado válido y procesable por analizadores XML y otras herramientas de procesamiento XML. Estas son algunas de las características de un documento XML bien formado:
Inicio y fin del documento: El documento debe comenzar con una declaración XML (por ejemplo, <?xml version="1.0" encoding="UTF-8"?>) y tener un elemento raíz que envuelva todos los demás elementos.
Elementos anidados: Los elementos deben estar correctamente anidados, lo que significa que deben abrirse y cerrarse en el orden correcto. Cada elemento de apertura debe tener un elemento de cierre correspondiente, y los elementos no deben superponerse.
Atributos: Si un elemento tiene atributos, deben estar correctamente formateados y rodeados por comillas, por ejemplo, atributo="valor".
Etiquetas: Todas las etiquetas (elementos y atributos) deben estar en minúsculas. Los nombres de elementos y atributos son sensibles a mayúsculas y minúsculas.
Entidades XML: Los caracteres especiales como <, >, &, deben ser reemplazados por entidades XML adecuadas, como <, >, &, para evitar la ambigüedad y los errores
Comentarios: Los comentarios deben estar escritos correctamente en la sintaxis de XML (<!-- comentario -->).
Codificación de caracteres: El documento debe usar una codificación de caracteres válida y coincidir con la declarada en la declaración XML.
Espacios en blanco: Los espacios en blanco en el documento no deben tener significado semántico a menos que se utilicen dentro de los valores de texto.
Caracteres especiales: Algunos caracteres especiales, como caracteres de control no permitidos o caracteres no válidos en una codificación de caracteres específica, deben ser manejados adecuadamente o eliminados.
Por otro lado, se dice que un documento XML es válido (valid) cuando, además de no tener errores de sintaxis, no incumple ninguna de las normas establecidas en su estructura. Dicha estructura se puede definir utilizando distintos métodos, tales como:
DTD (Document Type Definition, Definición de Tipo de Documento).
XML Schema.
RELAX NG (REgular LAnguage for XML Next Generation).