XML的未來
現(xiàn)在你已經(jīng)知道XML。確實(shí),結(jié)構(gòu)有點(diǎn)復(fù)雜,而且DTD有各種可
以定義文檔可以包含的內(nèi)容的選項(xiàng)。但還不只這些。
考慮一個(gè)數(shù)據(jù)交換對其很重要的產(chǎn)業(yè),如銀行。銀行使用所有
權(quán)系統(tǒng)來跟蹤內(nèi)部的交易,但是如果他們在Web上使用一種通用
的XML格式,那么他們必須描述交易信息給另一個(gè)機(jī)構(gòu)或應(yīng)用程
序(如Quicken或MS Money)。當(dāng)然,他們也可以在Web頁面上
表示數(shù)據(jù)。FYI:這個(gè)標(biāo)記不存在。它叫做OFEX,開放金融交易
格式(Open Financial Exchange)。
在某種情況下,如果PC上的IE 4碰到一個(gè)SOFTPKG> 標(biāo)記符,一
個(gè)函數(shù)會(huì)被啟動(dòng)以給用戶更新已安裝的軟件的機(jī)會(huì)。如果你用
的是Windows 98,你可能看見過這種情況,但是不知道它是一
個(gè)XML應(yīng)用程序。
這里我們有三個(gè)XML應(yīng)用程序,看起來與Andy Grove在70年代看
到的加法機(jī)、打字機(jī)和鉛筆不同。但是與最終出現(xiàn)在PC上的應(yīng)
用程序相似,XML的好處可以被一般性地描述為:“當(dāng)你使用人
類和機(jī)器可讀的標(biāo)記符描述你的數(shù)據(jù)時(shí),會(huì)有好事發(fā)生的?!?/P>
這些好事是什么呢?我不知道。但是我也不知道我的PC上的下
一代程序?qū)?huì)是什么樣。只要數(shù)據(jù)以這種方式標(biāo)記,可以產(chǎn)生
不同的應(yīng)用。
你開始考慮它會(huì)擴(kuò)展到什么程度了嗎?
我們有很多XML的實(shí)際應(yīng)用可以談?wù)?,我?huì)在不久的將來談到它
們的。既然我們都是網(wǎng)民,以后將是XSL(擴(kuò)展樣式語言 -
eXtensible Style Language)了。
順便提一句,這個(gè)菜譜確實(shí)是我媽媽_的,而且很杰出。如果你
用之,再加半杯碎椰子。
我寫這篇文章是因?yàn)槲艺嬲\地關(guān)心你對我的看法。我擔(dān)心的是:如果你讀過我寫的XML簡介然后準(zhǔn)備開始寫自己的XML文檔。于是你開始尋找一個(gè)已經(jīng)建立的DTD來表示你的信息。你找到一個(gè),如下所示:
!ATTLIST fn
%attr.lang;
value CDATA #FIXED "TEXT">
!ENTITY % attr.img "
img.type CDATA #REQUIRED
img.data ENTITY #REQUIRED">
馬上你就會(huì)認(rèn)為Jay一定是一個(gè)白癡。他沒有說關(guān)于ATTLIST和ENTITY的任何事 - 不管它們是什么。
那么讓我們談?wù)勥@件事,先有一點(diǎn)耐心。
上面這些行可能不好看,但實(shí)際上沒什么。它們被用在DTD中來定義XML文檔中的屬性和實(shí)體。了解HTML的人會(huì)對這很清楚。屬性是帶有HTML標(biāo)記符的條目,用來更準(zhǔn)確地描述標(biāo)記符。在經(jīng)常出現(xiàn)的img src="my.gif" height="20" width="20">中,有兩個(gè)屬性:height和width。你在后面會(huì)看到,在XML文檔使用屬性與之很相似。
對實(shí)體也沒有什么新東西。如果你用過,你就已經(jīng)掌握了最基本的東西。一個(gè)被和分號包圍起來的字符串用來表示另一個(gè)或一套字符。(這里有ISO實(shí)體的完整清單。)
當(dāng)然,XML中屬性和實(shí)體還有其它功能。這就不可避免地要引入語法,雖然不太多。一旦知道了這些,就會(huì)不費(fèi)勁地使用XML文檔。
簡化菜譜
如果你讀過我寫的XML簡介,你會(huì)記得用簡單的標(biāo)記符表示的菜譜中的組成成分,如item>2 cups flour/item>。在寫完那篇文章后,我在網(wǎng)上漫游,發(fā)現(xiàn)關(guān)于菜譜的另一個(gè)XML文檔。其中的菜譜元素如下所示:
ingredient quantity="2" units="cups">flour/ingredient>
這種方法有一個(gè)實(shí)際的好處:可以更容易控制數(shù)據(jù)。用第一種方法,item>標(biāo)記符用來容納一堆不同的信息。如果我想提取組成成分的清單而不需要各成分的量,我就不會(huì)那么做。
我可以用如下的結(jié)構(gòu)取得相似的功能:
item>flour
quantity>2/quantity>
units>cups/units>
這可以被處理,但是有兩個(gè)問題:首先,item元素包含了混合的內(nèi)容:文本和其它標(biāo)記符。我很快就發(fā)現(xiàn)應(yīng)該盡量避免這種結(jié)構(gòu)。其次是標(biāo)記符幾乎沒有獨(dú)立的意義。很難想象只要units而不要實(shí)際的組成成分的情況。這些條目可以被簡單描述,我寧愿把它們當(dāng)作屬性。
首先要注意的是屬性名,quantity和units只有被能夠翻譯它們的應(yīng)用程序處理時(shí)才有意義。
在被包含在有效的文檔中之前,應(yīng)告訴DTD來允許它。對于上面的ingredient元素,我們在DTD中只包含了以下代碼:
!ELEMENT ingredient #PCDATA>
!ATTLIST ingredient quantity CDATA #REQUIRED>
!ATTLIST ingredient units CDATA #REQUIRED>
第一行看起來很熟悉 - 在任何DTD中都能看到的標(biāo)準(zhǔn)元素定義。每個(gè)ATTLIST行都依次包含以下信息:
!ATTLIST ingredient quantity CDATA #REQUIRED>
這是屬性依附的元素。
!ATTLIST ingredient quantity CDATA #REQUIRED>
這里定義屬性名。
!ATTLIST ingredient quantity CDATA #REQUIRED>
這里設(shè)置屬性類型。CDATA代表字符數(shù)據(jù)。意味著處理器在屬性內(nèi)可以得到文本。
!ATTLIST ingredient quantity CDATA #REQUIRED>
最后的部分定義屬性的缺省值??梢允褂脤?shí)際的數(shù)值,如3。這樣,XML中空白長度的屬性值將為3。輸入的值將覆蓋缺省值。
在上面的例子中我沒有設(shè)置特定的數(shù)量,而是使用XML的關(guān)鍵字#REQUIRED。它告訴處理器次屬性必須包含一個(gè)值。如果空白,文檔將不被處理。
缺省值有另外兩個(gè)關(guān)鍵字。第一個(gè)是#FIXED - 如果屬性值在整個(gè)文檔中保持相同的值。假設(shè)我定義一個(gè)image的標(biāo)記符屬性,所有圖像的大小都相同,比如說100*50像素,就可以在DTD中這樣定義屬性:
!ATTLIST picture length CDATA #FIXED "100 px">
!ATTLIST picture width CDATA #FIXED "50 px">
另一個(gè)關(guān)鍵字是#IMPLIED,表示屬性可以包含值或是空的。
下面讓我們看看屬性類型。
如果你決定自己寫DTD,可能需要一本解釋ATTLIST語句中所有組合的XML的書。但是如果借用DTD,或許只知道CDATA和另外三種屬性就性了。
第一個(gè)是ID。它要求屬性的值在文檔中不重復(fù)。使用過數(shù)據(jù)庫的人都知道唯一標(biāo)志符的必要性。DTD ATTLIST語句看起來象這樣:
!ATTLIST element_name attribute_name ID #REQUIRED>
很難想象沒有#REQUIRED缺省值的ID屬性類型。如果那樣,任何重復(fù)的或空的ID都會(huì)迫使處理器返回一個(gè)錯(cuò)誤。ID必須以字母或下劃線開始并且不能包含任何空格。
NMTOKEN類型也使用上面的命名規(guī)則。但是允許重復(fù)。它被用做傳遞數(shù)據(jù)給應(yīng)用程序的保障。大多數(shù)程序語言,包括Java和JavaScript,在模塊名中不能有空格。大多數(shù)情況下,最好保證屬性符合它們的規(guī)則。
最后是枚舉類型,不需要特定的關(guān)鍵字。而是用"|"符號包含在括號內(nèi)的值,例如:
!ATTLIST sibling (brother | sister) #REQUIRED>
如果有有限的可能的屬性值,可以用這種方式。
不會(huì)認(rèn)為今天的課程無趣吧,那么就接著讀吧!