在XML文档中的所有文本都会被解析器解析。
只有在CDATA部件之内的文本会被解析器忽略。
XML 解析器通常情况下会处理XML文档中的所有文本。
当XML元素被解析的时候,XML元素内部的文本也会被解析:
<message>This text is also parsed</message>XML解析器这样做的原因是XML元素内部可能还包含了别的元素,象下面的例子,name元素内部包含了first和last两个元素:
<name><first>Bill</first><last>Gates</last></name>解析器会认为上面的代码是这样的:
<name> <first>Bill</first> <last>Gates</last> </name>不合法的XML字符必须被替换为相应的实体。
如果在XML文档中使用类似"<" 的字符, 那么解析器将会出现错误,因为解析器会认为这是一个新元素的开始。所以不应该象下面那样书写代码:
<message>if salary < 1000 then</message>为了避免出现这种情况,必须将字符"<" 转换成实体,象下面这样:
<message>if salary < 1000 then</message>下面是五个在XML文档中预定义好的实体:
<<小于号>>大于号&&和''单引号""双引号 实体必须以符号"&"开头,以符号";"结尾。注意: 只有"<" 字符和"&"字符对于XML来说是严格禁止使用的。剩下的都是合法的,为了减少出错,使用实体是一个好习惯。
在CDATA内部的所有内容都会被解析器忽略。
如果文本包含了很多的"<"字符和"&"字符——就象程序代码一样,那么最好把他们都放到CDATA部件中。
一个 CDATA 部件以"<![CDATA[" 标记开始,以"]]>"标记结束:
<script> <![CDATA[ function matchwo(a,b) { if (a < b && a < 0) then { return 1 } else { return 0 } } ]]> </script>在前面的例子中,所有在CDATA部件之间的文本都会被解析器忽略。
CDATA部件之间不能再包含CDATA部件(不能嵌套)。如果CDATA部件包含了字符"]]>" 或者"<![CDATA[" ,将很有可能出错哦。
同样要注意在字符串"]]>"之间没有空格或者换行符。
《XML指南——XML CDATA》来自www.3duNet.cn 版权归原作者所有,仅供学习,转载请注明出处!
XML的语法规则既简单又严格,非常容易学习和使用。 正因为如此,编写读取和操作XML的软件也是相对容易的事情。 一个XML文档的例子 XML文档使用了自描述的和简单的语法。 <?xml version="1.0" encoding="ISO-8859-1"?> <note> <to>Lin</to> <from>Ordm</from> <heading>Reminder</heading> <body>Don’t forget me this weekend!</body> </note> 文档的第1行:XML声明——定义此文档所遵循的XML标准的版本,在这个例子里是1.0版本的标准,使用的是ISO-8859-1 (Latin-1/West European)字符集。 文档的第2行是根元素(就象是说“这篇文档是一个便条”): <note> 文档的第3--6行描述了根元素的四个子节点(to, from, heading,和 body): <to>Lin</to> <from>Ordm</from> <heading>Reminder</heading> <body>Don’t forget me this weekend!</body> 文档的最后一行是根元素的结束: </note> 你能从这个文档中看出这是Ordm给Lin留的便条么?难道能不承认XML是一种美丽的自描述语言么? 所有的XML文档必须有一个结束标记 在XML文档中, 忽略结束标记是不符合规定的。 在HTML文档中,一些元素可以是没有结束标记的。下面的代码在HTML中是完全合法的: <p>This is a paragraph <p>This is another paragraph 但是在XML文档中必须要有结束标记,象下面的例子一样: <p>This is a paragraph</p> <p>This is another paragraph</p> 注意: 你可能已经注意到了,上面例子中的第一行并没有结束标记。这不是一个错误。因为XML声明并不是XML文档的一部分,他不是XML元素,也就不应该有结束标记。 XML标记都是大小写敏感的 这与HTML不一样, XML标记是大小写敏感的。 在XML中, 标记<Letter>与标记<letter>是两个不同的标记。 因此在XML文档中开始标记和结束标记的大小写必须保持一致。 <Message>This is incorrect</message> //错误的 <message>This is correct</message> //正确的 所有的XML元素必须合理包含 在XML中不允许不正确的嵌套包含。 在HTML中,允许有一些不正确的包含,例如下面的代码可以被浏览器解析: <b><i>This text is bold and italic</b></i> 在XML中所有元素必须正确的嵌套包含,上面的代码应该这样写: <b><i>This text is bold and italic</i></b> 所有的XML文档必须有一个根元素 XML文档中的第一个元素就是根元素。 所有XML文档都必须包含一个单独的标记来定义,所有其他元素的都必须成对的在根元素中嵌套。XML文档有且只能有一个根元素。 所有的元素都可以有子元素,子元素必须正确的嵌套在父元素中,下面的代码可以形象的说明: <root> <child> <subchild>.....</subchild> </child> </root> 属性值必须使用引号"" 在XML中,元素的属性值没有引号引着是不符合规定的。 如同HTML一样,XML元素同样也可以拥有属性。XML元素的属性以名字/值成对的出现。XML语法规范要求XML元素属性值必须用引号引着。请看下面的两个例子,第一个是错误的,第二个是正确的。 <?xml version="1.0" encoding="ISO-8859-1"?> <note date=12/11/99> <to>Lin</to> <from>Ordm</from> <heading>Reminder</heading> <body>Don’t forget me this weekend!</body> </note> <?xml version="1.0" encoding="ISO-8859-1"?> <note date="12/11/99"> <to>Tove</to> <from>Jani</from> <heading>Reminder</heading> <body>Don’t forget me this weekend!</body> </note> 第一个文档的错误之处是属性值没有用引号引着。 正确的写法是: date="12/11/99". 不正确的写法: date=12/11/99. 使用XML,空白将被保留 在XML文档中,空白部分不会被解析器自动删除。 这一点与HTML是不同的。在HTML中,这样的一句话: "Hello my name is Ordm"将会被显示成:“Hello my name is Ordm”, 因为HTML解析器会自动把句子中的空白部分去掉。 使用XML, CR / LF 被转换为 LF 使用 XML, 新行总是被标识为 LF(Line Feed,换行)。 你知道打字机是什么么?呵呵,打字机是在上个世纪里使用的一种专门打字的机器。^&^ 当你用打字机敲完一行字后,你通常不得不再把打字头移动到纸的左端。 在Windows应用程序中,文本中的新行通常标识为 CR LF (carriage return, line feed,回车,换行)。在Unix应用程序中,新行通常标识为 LF。还有一些应用程序只使用CR来表示一个新行。 XML中的注释 在XML中注释的语法基本上和HTML中的一样。 <!-- 这是一个注释 --> XML并没有什么特别的哦 XML确实没有什么特别的地方。他只是一些用尖括号扩在一起的普通的纯文本。 编辑普通文本的软件也可以编辑XML文档。 然而在一个支持XML的应用程序中,XML标记往往对应着特殊的操作,有些标记可能是可见的,而有些标记则可能不会显示出来,而不会有什么特殊的操作。 《XML指南——XML 语法》来自www.3duNet.cn 版权归原作者所有,仅供学习,转载请注明出处!
XML元素是可以扩展的,它们之间有关联。 XML元素有简单的命名规则。 XML元素是可以扩展的 XML文档可以被扩展一边携带更多的信息。 请看下面的XML便条例子: <note> <to>Lin</to> <from>Ordm</from> <body>Don’t forget me this weekend!</body> </note> 让我们来设想一个能够读取此XML文档的并能解读其中XML元素(<to>, <from>, 和<body>)的软件,可能的输出如下: MESSAGE To: Lin From: Ordm Don’t forget me this weekend! 我们再来设想,如果便条的作者Ordm在这个XML文档中加入一些额外的信息,如下所示: <note> <date>2002-12-24</date> <to>Lin</to> <from>Ordm</from> <heading>Reminder</heading> <body>Don’t forget me this weekend!</body> </note> 那么原来的应用程序会中断或者崩溃么? 不会。应用程序仍然会正确的解读<to>, <from>, 和<body> 等元素,并且产生同样的输出。 XML文档是可以扩展的! XML元素是相互关联的 XML元素之间是父元素和子元素的关系。 为了更好的理解XML术语,必须了解XML元素之间的关系如何,以及元素的内容是如何被描述的。 设想有这样一本书: 署名: XML 指南 第一章: XML入门简介 什么是HTML 什么是XML 第二章: XML语法 XML元素必须有结束标记 XML元素必须正确的嵌套 我们可以用XML文档来描述这本书: <book> <title>XML 指南</title> <prod id="33-657" media="paper"></prod> <chapter>XML入门简介 <para>什么是HTML</para> <para>什么是XML</para> </chapter> <chapter>XML语法 <para>XML元素必须有结束标记</para> <para>XML元素必须正确的嵌套</para> </chapter> </book> 在上面的代码中,Book元素是XML文档的根元素,title元素和chapter元素是book元素的子元素。Book元素是title元素和chapter元素的父元素。title元素,prod元素和chapter元素是平级元素,因为他们都有同一个父元素。 XML元素的内容 XML元素有不同的内容。 XML元素指的是从该元素的开始标记到结束标记之间的这部分内容。 XML元素有元素内容,混合内容,简单内容或者空内容。每个元素都可以拥有自己的属性。 在上面的例子中,book元素有元素内容,应为book元素包含了其它的元素。Chapter元素有混合内容,因为它里面包含了文本和其他元素。para元素有简单的内容,因为它里面仅有简单的文本。prod元素有空内容,因为他不携带任何信息。 在上面的例子中,只有prod元素有属性,id属性值是33-657,media属性值是paper。 XML元素命名 XML元素命名必须遵守下面的规则: 元素的名字可以包含子母,数字和其他字符。 元素的名字不能以数字或者标点符号开头。 元素的名字不能以XML(或者xml,Xml,xMl...)开头。 元素的名字不能包含空格。 自己“发明”的XML元素还必须注意下面一些简单的规则: 任何的名字都可以使用,没有保留字(除了XML),但是应该使元素的名字具有可读性,名字使用下划线是一个不错的选择。 例如: <first_name>, <last_name>. 尽量避免使用“-”,“.”,因为有可能引起混乱。 只要你愿意元素的名字可以很长,但也不要太夸张了哦。命名应该遵循简单易读的原则,例如:<book_title>是一个不错的名字,而<the_title_of_the_book>则显得罗嗦了。 XML文档往往都对应着数据表,我们应该尽量让数据库中的字段的命名和相应的XML文档中的命名保持一致,这样可以方便数据变换。 非英文/字符/字符串也可以作为XML元素的名字,例如<蓝色理想><经典论坛>这都是完全合法的名字。但是有一些软件不能很好的支持这种命名,所以尽量使用英文字母来命名。 在XML元素命名中不要使用":",因为XML命名空间需要用到这个十分特殊的字符。 《XML指南——XML元素》来自www.3duNet.cn 版权归原作者所有,仅供学习,转载请注明出处!