可扩展标记语言(eXtensible Markup Language,XML)是由万维网联盟(World Wide Web Consortium,W3C)标准化于1998年并推行的一组规范,用于软件开发者和内容创作人员定义、存储和传递结构化的数据。作为最初的标准通用标识语言(Standard Generalized Markup Language,SGML)的一个子集,XML保持着SGML可扩展、结构化和有效性的特点。与SGML的另一子集超文本链接标示语言HTML不同,XML用来描绘结构化数据,可以用在各种各样的网络环境和应用领域,而HTML的本质目的是显示网页内容,与万维网密不可分。
由于XML可扩展的特点,任何人员都可以定义XML数据格式。加之W3C的不懈努力,越来越多的数据格式已经被纳入XML阵营。其中仅对业界产生重大影响的就包括:无线应用协议(Wireless Application Protocol,WAP)所规定的无线标记语言(Wireless Markup Language,WML)和可扩展超文本标记语言(eXtensible HyperText Markup Language,XHTML)、 在网站供稿中广泛采用的RSS和Atom、即时通讯领域最重要的标准协议XMPP、电子文档的国际标准ODF和Open XML、图像标准SVG、数学公式标准MathML……以及在商业报表领域经常用到的XBRL、在地理科学领域经常用到的GML和KML等。
XML并非一门或几门孤立语言,而是一系列语言所共同遵循的规范。例如,在定义一门新的XML时,应当指定一本用于描述其语法结构和语义结构的文档类型定义(Document Type Definition,DTD)或XML Schema,当然,对于已有的规范化的XML语言,如Atom、SVG、MathML、XHTML等,这些定义是通用的,存放于固定的定义空间之中。针对以上定义,可以使用XML路径语言(XML Path Language,XPath)在一个XML档案中查找所需信息。如果需要针对显示等特定目的,把一种XML翻译成另外一种XML,则需要用到可扩展样式语言(eXtensable Stylesheet Language,XSL)。