Carson带你学序列化:深入分析XML多种解析方式(DOM、SAX、PULL)

2023-12-09 16:10

本文主要是介绍Carson带你学序列化:深入分析XML多种解析方式(DOM、SAX、PULL),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


目录

示意图


1. 定义

XML,即 extensible Markup Language ,是一种数据标记语言 & 传输格式

关于另外1种主流的数据传输格式 JSON,具体请看:Carson带你学序列化:深入分析JSON多种解析方式(Gson、AS自带org.json、Jackson)


2. 作用

对数据进行标记(结构化数据)、存储 & 传输

区别于 htmlhtml用于显示信息;而 XML用于存储&传输信息


3. 特点

示意图


4. 语法

  • 元素要关闭标签
    < p >this is a bitch <p>
  • 对大小写敏感
< P >这是错误的<p>
< p >这是正确的 <p>
  • 必须要有根元素(父元素)
<root><kid></kid>
</root>
  • 属性值必须加引号
<note date="16/08/08">
</note>
  • 实体引用
实体引用符号含义
&lt;<小于
&gt ;>大于
&amp;&和浩
&apos;单引号
&quot;"双引号

元素不能使用&(实体的开始)和<(新元素的开始)

  • 注释
    <!-- This is a comment -->

  • XML的元素、属性和属性值

文档实例

<bookstore><book category="CHILDREN"><title lang="en"> Harry Potter </title><author> JK.Rowling</author></book>
<book category="WEB"><title lang="en"> woshiPM </title><author>Carson_Ho</author></book>
</bookstore>

其中,是根元素;是子元素,也是元素类型之一;而中含有属性,即category,属性值是CHILDREN;而元素则拥有文本内容( JK.Rowling)

  • 元素与属性的差别
    属性即提供元素额外的信息,但不属于数据组成部分的信息。

范例一

<bookstore><book category="CHILDREN"><title lang="en"> Harry Potter </title><author> JK.Rowling</author></book>

范例二

<bookstore><book ><category>CHILDREN<category><title lang="en"> Harry Potter </title><author> JK.Rowling</author></book>

范例一和二提供的信息是完全相同的。

一般情况下,请使用元素,因为

  1. 属性无法描述树结构(元素可以)
  2. 属性不容易拓展(元素可以)

使用属性的情况:用于分配ID索引,用于标识XML元素。

实例

<bookstore><book id = "501"><category>CHILDREN<category><title lang="en"> Harry Potter </title><author> JK.Rowling</author></book><book  id = "502"><category>CHILDREN<category><title lang="en"> Harry Potter </title><author> JK.Rowling</author></book>
<bookstore>

上述属性(id)仅用于标识不同的便签,并不是数据的组成部分

  • XML元素命名规则
  1. 不能以数字或标点符号开头
  2. 不能包含空格
  3. 不能以xml开头
  • CDATA
    不被解析器解析的文本数据,所有xml文档都会被解析器解析(cdata区段除外)
    <![CDATA["传输的文本 "]]>

  • PCDATA
    被解析的字符数据


5. XML树结构

XML文档中的元素会形成一种树结构,从根部开始,然后拓展到每个树叶(节点),下面将以实例说明XML的树结构。

  • 假设一个XML文件如下
<?xml version ="1.0" encoding="UTF-8"?>
<简历><基本资料><求职意向><自我评价><其他信息><联系方式><我的作品></简历>
  • 其树结构如下
    树结构 .png

  • XML节点解释
    XML文件是由节点构成的。它的第一个节点为“根节点”。一个XML文件必须有且只能有一个根节点,其他节点都必须是它的子节点。

    this 代表整个XML文件,它的根节点就是 this.firstChild 。 this.firstChild.childNodes 则返回由根节点的所有子节点组成的节点数组。

每个子节点又可以有自己的子节点。节点编号由0开始,根节点的第一个子节点为 this.firstChild.childNodes[0],它的子节点数组就是this.firstChild.childNodes[0].childNodes 。


根节点第一个子节点的第二个子节点 this.firstChild.childNodes[0].childNodes[1],它返回的是一个XML对象(Object) 。这里需要特别注意,节点标签之间的数据本身也视为一个节点 this.firstChild.childNodes[0].childNodes[1].firstChild ,而不是一个值。


我们解析XML的最终目的当然就是获得数据的值:this.firstChild.childNodes[0].childNodes[1].firstChild.nodeValue 。

请注意区分:节点名称(<性别></性别>)和之间的文本内容(男)可以当作是节点,也可以当作是一个值

节点:
名称:this.firstChild.childNodes[0].childNodes[1]
文本内容:this.firstChild.childNodes[0].childNodes[1].firstChild

值:
名称:this.firstChild.childNodes[0].childNodes[1].nodeValue
(节点名称有时也是我们需要的数据)
文本内容:this.firstChild.childNodes[0].childNodes[1].nodeName

在了解完XML之后,是时候来学下如何进行XML的解析了


6. 解析方式

  • 解析XML,即从XML中提取有用的信息
  • XML的解析方式主要分为2大类:
    示意图

6.1 DOM方式

  • 简介
    Document Object Model,即 文件对象模型,是 一种 基于树形结构节点 & 文档驱动 的XML解析方法

定义了访问 & 操作xml文档元素的方法和接口

  • 解析原理

示意图

  • 具体解析实例
// 假设需要解析的XML文档如下(subject.xml)<?xml version ="1.0" encoding="UTF-8"?>`
<code>
<language id="1"><name>Java</name><usage>Android</usage></language>
<language id="2"><name>Swift#</name><usage>iOS</usage></language>
<language id="3"><name>Html5</name><usage>Web</usage></language></code>// 解析的核心代码public static List<subject> getSubjectList(InputStream stream){ tv = (TextView)findViewById(R.id.tv);try {//打开xml文件到输入流InputStream stream = getAssets().open("subject.xml");//得到 DocumentBuilderFactory 对象DocumentBuilderFactory builderFactory = DocumentBuilderFactory.newInstance();//得到DocumentBuilder对象DocumentBuilder builder = builderFactory.newDocumentBuilder();//建立Document存放整个xml的Document对象数据Document document = builder.parse(stream);//得到 XML数据的"根节点" Element element = document.getDocumentElement();//获取根节点的所有language的节点NodeList list = element.getElementsByTagName("language");//遍历所有节点for (int i= 0;i<=list.getLength();i++){//获取lan的所有子元素Element language = (Element) list.item(i);//获取language的属性(这里即为id)并显示tv.append(lan.getAttribute("id")+"\n");//获取language的子元素 name 并显示                       tv.append(sub.getElementsByTagName("name").item(0).getTextContent()+"\n");//获取language的子元素usage 并显示                    tv.append(sub.getElementsByTagName("usage").item(0).getTextContent()+"\n");}
  • 特点 & 应用场景

示意图

6.2 SAX 方式

  • 简介
    Simple API for XML一种 基于事件流驱动、通过接口方法解析 的XML解析方法

  • 解析原理
    示意图

  • 解析实例
    在使用SAX解析XML文档时,关键在于 自定义自己的Handler处理类 & 复写对应方法

public class MyHandler extends DefaultHandler{ @Override public void startDocument() throws SAXException{ } @Override public void startElement(String uri,String localName,String qName, Attributes attributes) throws SAXException{ } @Override public void characters(char[] ch,int start,int length) throws SAXException{ } @Override public void endElement(String uri,String localName,String qName) throws SAXException{ } @Override public void endDocument() throws SAXException{ } 
}
  • 特点 & 应用场景

示意图

6.3 PULL解析

  • 简介
    一种 基于事件流驱动 的XML解析方法

  • 解析原理

示意图

  • 解析模板代码

注:Android中自带了Pull解析的jar包,故不需额外导入第三方jar

// Pull使用循环解析
XmlPullParserFactory factory = XmlPullParserFactory.newInstance(); 
XmlPullParser xmlPullParser = factory.newPullParser(); 
xml.setInput(new StringReader(xmlData)); int eventType = xmlPullParser.getEventType(); while(eventType!=XmlPullParser.END_DOCUMENT){ String nodeName = xmlPullParser.getName(); switch(eventType){ case XmlPullParser.START_DOCUMENT:{} case XmlPullParser.START_TAG:{} case XmlPullParser.END_TAG:{}  }  eventType = parser.next(); 
}
  • 解析实例
public class MainActivity extends Activity {private EditText et;private Button myButton;@Overridepublic void onCreate(Bundle savedInstanceState) {super.onCreate(savedInstanceState);setContentView(R.layout.activity_main);myButton = (Button) this.findViewById(R.id.btn01);et = (EditText) this.findViewById(R.id.edittext01);myButton.setOnClickListener(new OnClickListener() {//可变字符序列,比StringBuffer块StringBuilder sb = new StringBuilder("");Resources res = getResources();XmlResourceParser xrp = res.getXml(R.xml.subject);@Overridepublic void onClick(View v) {int counter = 0;try {// 判断是否到了文件的结尾while (xrp.getEventType() != XmlPullParser.END_DOCUMENT) {//文件的内容的起始标签开始,这里的起始标签是subject.xml文件里面<subjects>标签下面的第一个标签int eventType=xrp.getEventType();switch (eventType) {case XmlPullParser.START_DOCUMENT:break;case  XmlPullParser.START_TAG:String tagname = xrp.getName();if (tagname.endsWith("language")) {counter++;sb.append("这是第" + counter + "种语言"+"\n");//可以调用XmlPullParser的getAttributte()方法来获取属性的值sb.append("语言id是:"+xrp.getAttributeValue(0)+"\n");}else if(tagname.equals("name")){//可以调用XmlPullParser的nextText()方法来获取节点的值sb.append("语言名称是:"+xrp.nextText()+"\n");}else if(tagname.equals("teacher")){sb.append("用途是:"+xrp.nextText()+"\n");}break;case XmlPullParser.END_TAG:break;case XmlPullParser.TEXT:break;}//解析下一个事件xrp.next();}//StringBuilder要调用toString()方法并显示et.setText(sb.toString());} catch (XmlPullParserException e) {} catch (IOException e) {e.printStackTrace();}}});}
  • 特点 & 应用场景

示意图

6.4 解析方式对比

示意图


7. 总结

  • 本文全面介绍了现今主流的数据传输格式 XML,下面用一张图总结XML的主流解析方法
    示意图
  • 关于另外1种主流的数据传输格式 JSON,具体请看:Carson带你学序列化:深入分析JSON多种解析方式(Gson、AS自带org.json、Jackson)

欢迎关注Carson_Ho的CSDN博客

博客链接:https://carsonho.blog.csdn.net/


请帮顶 / 评论点赞!因为你的鼓励是我写作的最大动力!

这篇关于Carson带你学序列化:深入分析XML多种解析方式(DOM、SAX、PULL)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/474304

相关文章

Debezium 与 Apache Kafka 的集成方式步骤详解

《Debezium与ApacheKafka的集成方式步骤详解》本文详细介绍了如何将Debezium与ApacheKafka集成,包括集成概述、步骤、注意事项等,通过KafkaConnect,D... 目录一、集成概述二、集成步骤1. 准备 Kafka 环境2. 配置 Kafka Connect3. 安装 D

C#中读取XML文件的四种常用方法

《C#中读取XML文件的四种常用方法》Xml是Internet环境中跨平台的,依赖于内容的技术,是当前处理结构化文档信息的有力工具,下面我们就来看看C#中读取XML文件的方法都有哪些吧... 目录XML简介格式C#读取XML文件方法使用XmlDocument使用XmlTextReader/XmlTextWr

Springboot中分析SQL性能的两种方式详解

《Springboot中分析SQL性能的两种方式详解》文章介绍了SQL性能分析的两种方式:MyBatis-Plus性能分析插件和p6spy框架,MyBatis-Plus插件配置简单,适用于开发和测试环... 目录SQL性能分析的两种方式:功能介绍实现方式:实现步骤:SQL性能分析的两种方式:功能介绍记录

SQL 中多表查询的常见连接方式详解

《SQL中多表查询的常见连接方式详解》本文介绍SQL中多表查询的常见连接方式,包括内连接(INNERJOIN)、左连接(LEFTJOIN)、右连接(RIGHTJOIN)、全外连接(FULLOUTER... 目录一、连接类型图表(ASCII 形式)二、前置代码(创建示例表)三、连接方式代码示例1. 内连接(I

Android里面的Service种类以及启动方式

《Android里面的Service种类以及启动方式》Android中的Service分为前台服务和后台服务,前台服务需要亮身份牌并显示通知,后台服务则有启动方式选择,包括startService和b... 目录一句话总结:一、Service 的两种类型:1. 前台服务(必须亮身份牌)2. 后台服务(偷偷干

Java深度学习库DJL实现Python的NumPy方式

《Java深度学习库DJL实现Python的NumPy方式》本文介绍了DJL库的背景和基本功能,包括NDArray的创建、数学运算、数据获取和设置等,同时,还展示了如何使用NDArray进行数据预处理... 目录1 NDArray 的背景介绍1.1 架构2 JavaDJL使用2.1 安装DJL2.2 基本操

最长公共子序列问题的深度分析与Java实现方式

《最长公共子序列问题的深度分析与Java实现方式》本文详细介绍了最长公共子序列(LCS)问题,包括其概念、暴力解法、动态规划解法,并提供了Java代码实现,暴力解法虽然简单,但在大数据处理中效率较低,... 目录最长公共子序列问题概述问题理解与示例分析暴力解法思路与示例代码动态规划解法DP 表的构建与意义动

JS 实现复制到剪贴板的几种方式小结

《JS实现复制到剪贴板的几种方式小结》本文主要介绍了JS实现复制到剪贴板的几种方式小结,包括ClipboardAPI和document.execCommand这两种方法,具有一定的参考价值,感兴趣的... 目录一、Clipboard API相关属性方法二、document.execCommand优点:缺点:

Python创建Excel的4种方式小结

《Python创建Excel的4种方式小结》这篇文章主要为大家详细介绍了Python中创建Excel的4种常见方式,文中的示例代码简洁易懂,具有一定的参考价值,感兴趣的小伙伴可以学习一下... 目录库的安装代码1——pandas代码2——openpyxl代码3——xlsxwriterwww.cppcns.c

Deepseek使用指南与提问优化策略方式

《Deepseek使用指南与提问优化策略方式》本文介绍了DeepSeek语义搜索引擎的核心功能、集成方法及优化提问策略,通过自然语言处理和机器学习提供精准搜索结果,适用于智能客服、知识库检索等领域... 目录序言1. DeepSeek 概述2. DeepSeek 的集成与使用2.1 DeepSeek API