PHP擴展之XML操作(二)——XML解析器安裝及概述
XML(可擴展標記語言,eXtensible Markup Language) 是一種在互聯網上用于結構化文檔交互的數據格式。 它是互聯網協會(W3C)定義的一個標準。與 XML 及其相關技術的信息可訪問http://www.w3.org/XML/。
此 PHP 擴展實現 支持 James Clark 使用 PHP 編寫的?expat。 此工具包可解析(但不能驗證) XML 文檔。它支持 PHP 所提供的 3 種字符編碼:?US-ASCII,?ISO-8859-1?和?UTF-8。 不支持?UTF-16。
此擴展可?創建 XML 解析器?并為不同的 XML 事件定義?處理程序(handler)。 每個 XML 解析器還存在少數可以調節的參數。
此擴展需要?libxml?PHP 擴展。這表示需要使用?--enable-libxml?,盡管這將隱式完成因為 libxml 是缺省開啟的。
缺省情況下,此擴展使用expat compat layer?。也可使用expat, 此庫位于?http://www.jclark.com/xml/expat.html。 使用expat庫中的 Makefile 是不會默認構建出庫文件的,可使用以下構建規則進行構建:
libexpat.a: $(OBJS) ar -rc $@ $(OBJS) ranlib $@
expat 的源代碼 RPM 安裝包可在?http://sourceforge.net/projects/expat/?找到。
此擴展默認為啟用,編譯時可通過下列選項禁用:?--disable-xml
這些函數默認為有效的,使用了捆綁的 expat 庫。您可以通過參數?--disable-xml?來屏蔽 XML 的支持。如果您將 PHP 編譯為 Apache 1.3.9 或更高版本的一個模塊, PHP 將自動使用 Apache 捆綁的?expat?庫。如果您不希望使用該捆綁的 expat 庫,請在運行 PHP 的 configure 配置腳本時使用參數?--with-expat-dir=DIR?,其中 DIR 應該指向 expat 安裝的根目錄。
PHP 的 Windows 版本已內建對此擴展的支持。不需要載入額外的擴展來使用這些函數。
二、事件處理器XML 事件處理器的定義如下:
被支持的 XML 處理器PHP 處理器函數事件描述xml_set_element_handler()當 XML 解析器遇到開始或結束標簽時,會觸發元素事件。 開始標簽和結束標簽有不同的處理器。xml_set_character_data_handler()字符數據范指 XML 文檔中所有非標記的內容,包括標簽之間的空格。 注意,XML 解析器不會添加或刪除任何空格,由應用程序(你)來判斷空格是否有意義。xml_set_processing_instruction_handler()PHP 程序員必須熟練掌握處理指令(PI)。<?php ?>是處理指令, 其中php被稱為“處理指令對象”。 除所有以“XML”開頭的處理指令對象是系統保留的外, 其他的處理函數均是由應用程序指定的。xml_set_default_handler()不執行其他處理函數,則會執行缺省的處理函數。 在缺省的處理函數中可取得如 XML 和文檔類型聲明等信息。xml_set_unparsed_entity_decl_handler()未解析的實體聲明(NDATA)會調用此處理函數。xml_set_notation_decl_handler()符號聲明會調用此處理函數xml_set_external_entity_ref_handler()當 XML 解析器發現對外部已解析的普通實體的引用時, 會調用此處理函數。例如,引用一個文件或URL。實例可參見?XML 外部實體例程。三、大寫轉換元素處理函數可取得元素名稱轉換為?case-folded(大寫字母)形式。 Case-folding 被定義為“將非大寫字母替換為相對應的大寫字母的字符串操作”。換句話說,在 XML 中,case-folding 就是轉換為大寫。
默認情況下,所有的通過處理函數的元素名都被轉換為大寫字母。每個 XML 解析器可分別通過?xml_parser_get_option()與xml_parser_set_option()函數來查詢與控制此項功能。
四、錯誤代碼下列常量是 XML 相關的錯誤代碼(?xml_parse()函數的返回值):
XML_ERROR_NONEXML_ERROR_NO_MEMORYXML_ERROR_SYNTAXXML_ERROR_NO_ELEMENTSXML_ERROR_INVALID_TOKENXML_ERROR_UNCLOSED_TOKENXML_ERROR_PARTIAL_CHARXML_ERROR_TAG_MISMATCHXML_ERROR_DUPLICATE_ATTRIBUTEXML_ERROR_JUNK_AFTER_DOC_ELEMENTXML_ERROR_PARAM_ENTITY_REFXML_ERROR_UNDEFINED_ENTITYXML_ERROR_RECURSIVE_ENTITY_REFXML_ERROR_ASYNC_ENTITYXML_ERROR_BAD_CHAR_REFXML_ERROR_BINARY_ENTITY_REFXML_ERROR_ATTRIBUTE_EXTERNAL_ENTITY_REFXML_ERROR_MISPLACED_XML_PIXML_ERROR_UNKNOWN_ENCODINGXML_ERROR_INCORRECT_ENCODINGXML_ERROR_UNCLOSED_CDATA_SECTIONXML_ERROR_EXTERNAL_ENTITY_HANDLING五、字符編碼PHP 的 XML 擴展通過幾種不同的字符編碼支持Unicode?字符集。 有兩類字符編碼,?原始編碼?和?目標編碼. 在PHP的內部展現中,文檔始終是使用UTF-8編碼。
當 XML 被?解析?后,原始編碼就完成了。 在創建 XML 解析器時, 可以指定原始編碼(在XML 解析器此后的生命周期里,不能修改此編碼)。 被支持的原始編碼有?ISO-8859-1,?US-ASCII?和?UTF-8. 前兩種是單字節編碼, 即每一個字符表現為一個字節。?UTF-8?可將字符編碼為一串不定數量(最高21)的位(bit), 排列成1到4個字節。 PHP 中使用的默認原始編碼是ISO-8859-1.
當 PHP 將數據傳給 XML 處理函數時,目標編碼就完成了。 在創建 XML 處理器時,目標編碼被設定為與原始編碼相同,但可任意修改。 目標編碼會影響字符數據及標簽名,與處理指令目標。
如 XML 解析器遇到原始編碼所能表示的范圍之外的字符時,會返回一個錯誤。
如 PHP 遇到在被解析的 XML 文檔中不能用所指定的目標編碼表示的字符時, 這個問題字符會被“降級”。通常來說,就是那些字符會被替換成問號(?)。
相關文章: