你现在应该知道
XML
只说明数据的结构而并不关心数据是如何具体描述的、数据是否正确。
XML
文档的强制性结构化需求是通过
DTD
(文档类型说明)来实现的。那就是本系列文章中先前讲述的主题。在本文里,我们概要介绍
DTD
所存在的缺点,讨论新型的更为强大的标准
XML Schema
。
其他文章
以下是本系列的另两篇文章:
XML
的基本语法
DTD
文档格式
DTD
的麻烦
使用
DTD
虽然在指定许可的元素、需要的元素以及给定
XML
文档中如何组织元素等方面给我们以较大的方便,但是,一旦你想针对特定元素施加数据类型就会遇到麻烦了。
DTD
规范严格地定义了结构,但只支持相对功能较弱的内容类型规范,而对强制性结构化却无计可施,比如名为
Date
的数据如何规定它必须包含有效值呢?
这就要指望
XML Schema
了,
XML Schema
目前作为建议已经于
2001
年提交给了
W3C
,这意味着它最终将成为一般用途的建议标准。假如你对此感兴趣,你不妨到
W3C
网站找些官方文档和内容简介之类的材料来看看。注意,其他
schema
定义也是有的,包括日本的标准
RELAX
和微软公司的
XDR
。可是,
XML Schema
是唯一受到
W3C
成为的建议标准,所以我在这篇文章中只对它进行阐述。
XML Schema
不仅可以让你定义
XML
文档的结构而且还允许你约束文档的内容,这就不同于
DTD
了。另外,一个
XML Schema
自身就是一个
XML
文档,其基于标签的语法比
DTD
中的特殊字符要清楚多了。
Schema
概述
XML Schema
是用一套预先规定的
XML
元素和属性创建的,这些元素和属性定义了文档的结构和内容模式。相应的一套精巧的规则(这些规则却很有意思的用
DTD
来表示)指定了每个
Schema
元素或者属性的合法用途。如果违反这些规则解析器就会拒绝解析你的
Schema
以及任何同它相联系的文档。
现在让就让我们来看看清单
A
中显示的
XML Schema
示例,该例对我们以前在清单
B
中用到的图书目录进行了说明。清单
B
有了点小改动:作为根元素的
catalog
现在有了两个新属性,它们通过清单
A
中的
catalog schema
与之关联。
你再看
catalog schema
,很快你就会注意到它包含了标准的
XML
头
<?xml version = "1.0"?>
,这表示
schema
自己就是一个
XML
文档。而任何
schema
的根元素都必须是
schema
,它有一个或者多个说明自己的属性。在这种情况下,
schema
的
namespace
定义属性(
xmlns
)会定义名称空间为
xs
,它将用作文档中所有元素的根名称空间。
什么是名称空间
XML
把名称空间定义为包装
XML
元素在一起供以后重用的方式。为了使用
XML
文档的名称空间中定义的元素,你必须通过
xmlns
属性声明你希望采用名称空间。你还必须为该名称空间定义快捷方式的前缀(例如
xs
:
)作为你文档中的根元素,从而使得名称空间在文档中都可用。前缀是用于文档的任何导入名称空间的元素的标识符。这一过程就如同在
Visual Basic
中给库加索引或者导入模块;
C++
、
Java
或者
.NET
下的名称空间也具有同样的含义。
我们的
schema
示例中接下来的元素是
annotation
,它的作用是代表同其父元素有关的文档。
annotation
可以包含两个子元素之一,或者是
documentation
或者是
appinfo
,或者两者都包含进去。前者用于可读的文档,而后者则用来保存供应用程序处理的指令。
接下来我们定义了两个主要的元素(根元素
catalog
及其子元素
book
),它们用在书目文档内,后者采用了两个
element
元素。这些元素都包含了定义名字的属性和各个元素准许的内容。在这种情况下,
catalog
元素被定义为
catalogtype
类型,而
book
元素则被定义为
elementtype
类型;这两种类型以后还要在
schema
文档中被定义。
什么是类型?
我已经说过了,
XML Schema
可以让你把
XML
文档中的元素声明为特定的类型,准许解析器检查文档的内容及其结构。
XML Schem
定义了两种主要的数据类型:预定义简单类型和复杂类型。这两种数据类型之间的主要区别是复杂类型可以象数据一样包含其他元素而简单类型则只能包含数据。简单类型给予了
XML Schema
低级类型检查能力,允许你把元素定义为图
A
中的任何类型之一。
图
A
简单类型
定义
string
字符串数据。
boolean
二元类型的
True
或者
False
。
date
历法日期,格式是
CCYY-MM-DD
。
dateTime
历法日期和时间。
time 24
小时格式的时间可根据时区调节。
decimal
任意精度和位数的十进制数。
integer
整数
float
标准的
32
位浮点数。
XML Schema
预定义简单类型
你也可以定义自己的简单类型。为了更深入地了解各种
XML Schema
数据类型,请参看
W3C
网站上的
“XML Schema Part 2: DataTypes”
。
复杂类型由
complexType
元素定义,它通常至少拥有一个
name
属性,用在声明其他元素时索引类型,除非它位于某一元素之内(参见下一节)。所有的复杂类型都会包含一个内容定义类型,其主要功能是定义类型能包含的内容模式。某些可用的内容模式请见图
B
。
图
B
复杂类型
定义
sequence
在其定义范围之内的所有元素都必须按顺序出现,范围由
minOccurs
和
maxOccurs
指定。
choice
其范围内有且只有一个元素必须出现。
any
定义的任何元素都必须出现。
simpleContent
这种复杂类型只包含了非嵌套元素。可以通过包含扩展元素的方式扩展先前定义的简单类型。
complexContent
这种复杂类型只能包含其他元素。可以通过包含扩展元素的方式扩展先前定义的复杂类型。
attribute
这种复杂类型只能包含命名属性。
一些准许的
XML Schema
复杂类型
我们示例
schema
中的第一个
complexType
元素定义了
booktype
类型,你能从文档注释元素中看出,该类型给目录中单一的书建模型。
Booktype
包含一个
sequence
元素,通过它告诉解析器这种复杂类型的元素必须按照同样准确的顺序包含出现在
sequence
标签内出现的所有元素。就
booktype
而言,元素
author
、
title
、
genre
、
price
和
publish_date
都必须出现在
booktype
元素之内。
Description
又是怎么一回事呢?它出现在
sequence
元素内,有没有这个必要呢?当然没有。
description
元素有一个
minOccurs
属性,它定义了复杂类型中元素可以出现的最小次数。在这种情况下,
minOccurs
的值是零,因此
description
是一个可选的元素。
author
元素也是这样。它有一个
maxOccurs
属性,但却没有设值,意思是说
author
元素可以在
sequence
中出现无限次,显然,一本图书的作者至少有一个但却不一定只有一个。既没有
minOccurs
也没有
maxOccurs
属性的元素必须而且仅仅只能在
sequence
中出现一次,因此,
booktype
sequence
中的所有其他元素都是必要的而且只能出现一次。
在我们的示例
catalog schema
中定义的第二个同时也是最后一个复杂类型是
catalogtype
复杂类型。它也是包含一个以上的
sequence
,你可以从无界的
maxOccurs
属性看出这一点。
深入解释
看你的背景知识有多少了,本文用到的示例
schema
的结构对你来说要不本该如何要不只会叫你发昏,对
book
和
catalog
元素不采用正规复杂类型声明来定义
catalog schema
也是可能的,清单
C
就是这样。注意,清单
C
中的
complexType
元素嵌套在了
element
元素之内,
catalog
的
sequence
元素的子元素具有一个
ref
属性通过它告诉解析器它有一个引用指向先前定义的
book
元素。
我曾经听到很多人这样问:
“
很好,如果是这样的话,那么你为什么要采用以上那些费工夫的办法呢?
”
很简单,我们绕来饶去只是为了说明
XML Schema
的重要一点:它是可扩展的。通过定义类型的方式你就可以在多个文档中重用它们,甚至还可以用不同的
schema
对其进行扩展,这就像你在开发应用程序的时候重用或者扩展抽象数据类型或对象是一个道理。
工具
到目前为止,你应该意识到
XML Schema
的语法并不简单。虽然可以用简单的文本编辑器手工创建
schema
,不过,这样做也许会叫你累得吐血。为了更好地利用它,你可以采用若干种
XML
工具,最近出现的一些工具甚至提供了创建
XML Schema
的图形界面。
XML Spy
和
Cape Clear Studio
都是具有
XML Schema
创建功能的全方位
XML
综合开发环境。
dtd2xs
是一种
DTD-to-XML
的
Schema
转换工具,它有两种形式:单独运行的应用程序和
Java
类。同
DTD
一样,标准的
XML Schema
定义非常多,你可以根据自己的需要在应用程序的开发中采用。
结论
XML Schema
具有强制文档内容和结构的能力,它是
XML
世界中的一种不但重要而且强大的新标准。在这篇文章里,我仅仅浮光掠影地大致解释了其基本原理,但我希望这些阐述能给你打下一个继续前进的基础。接下来我们继续探讨
DOM
解析器。
转载请注明原文地址: https://ibbs.8miu.com/read-31216.html