利用dom4j解析xml

2024-08-26 15:32
文章标签 xml 解析 dom4j

本文主要是介绍利用dom4j解析xml,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

引言

最近有个项目需要解析xml 文件,获取其中的节点内容, 小编选择了一个编码简单又高效的dom4j来完成。

1、xml内容

<?xml version="1.0" encoding="UTF-8"?>
<RecognizeResult><Speech Uri="/Sub/2019-12-03.3/file/5149-15892322607-20191202141010-rJKTcXfpB_datang.wav" Duration="252840"><ResultCode>0</ResultCode><Confidence>100</Confidence><Subject Name="RecognizeText"><Role Name="R0"><EndPoint Count="44"><Item Begin="13340" End="13450"><Text>喂。 </Text><Time>13340,13450 </Time></Item><Item Begin="15860" End="16240"><Text>喂。 </Text><Time>15860,16240 </Time></Item></EndPoint></Role><Role Name="R1"><EndPoint Count="35"><Item Begin="17990" End="20080"><Text>哎 喂 是 王 斌 先生 是吗 啊! </Text><Time>17990,18100 18100,18340 18340,18550 18550,18940 18940,19120 19120,19510 19510,19820 19860,20080 </Time></Item><Item Begin="20630" End="21190"><Text>对 是啊! </Text><Time>20630,20860 20860,21190 </Time></Item></EndPoint></Role></Subject></Speech>
</RecognizeResult>

需求是,将其中的汉子分角色(R0,R1)解析出来,并且拼接成字符串,然后发送给消息队列。

2、引入jar包

  <dependency><groupId>dom4j</groupId><artifactId>dom4j</artifactId><version>1.6.1</version></dependency>

 

3、代码实现

package com.zj.zhijian.service;import com.zqf.common.utils.DateUtils;
import org.dom4j.Attribute;
import org.dom4j.Document;
import org.dom4j.DocumentException;
import org.dom4j.Element;
import org.dom4j.io.SAXReader;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.beans.factory.annotation.Value;
import org.springframework.stereotype.Service;import java.io.File;
import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;/*** @author zhenghao* @description: 解析xml* @date 2019/12/318:33*/
@Service
public class ParseXmlService {private static Logger log = LoggerFactory.getLogger(ParseXmlService.class);@Value("${base.file.path}")private String baseFilePath;//获得文件 测试方法public void xmlFile() {//String toDayStartYMD = DateUtils.getToDayStartYMD();String date = "2019-12";for (int j = 1; j <= 4; j++) {String toDayStartYMD = date + "-0" + j;for (int i = 0; i < 24; i++) {String filePath = baseFilePath + toDayStartYMD + "." + i + "/file/";log.info("文件路径" + filePath);parseXml(filePath);}}}public void parseXml(String strFile) {try {long l = System.currentTimeMillis();List<String> R0List = new ArrayList<>();List<String> R1List = new ArrayList<>();File file = new File(strFile);String[] filePath = file.list();if (filePath == null || filePath.length <= 0) {return;}log.info("xml个数" + filePath.length);for (String s : filePath) {if (!s.contains(".xml")) {continue;}String tempFilePath = strFile + s;//1.创建Reader对象SAXReader reader = new SAXReader();//2.加载xmlDocument document = reader.read(new File(tempFilePath));//3.获取根节点Element rootElement = document.getRootElement();StringBuilder sb = new StringBuilder();//4、获得指定子节点Element speechElement = rootElement.element("Speech");//5、获得节点属性Attribute duration = speechElement.attribute("Duration");String value = duration.getValue();int telLength = Integer.valueOf(value) / 1000;if (telLength <= 45) {continue;}//默认返回第一节点Element subjectElement = speechElement.element("Subject");if (subjectElement == null) {continue;}Iterator iterator3 = subjectElement.elementIterator();while (iterator3.hasNext()) {Element roleElement = (Element) iterator3.next();Attribute name = roleElement.attribute("Name");Element endPointElement = roleElement.element("EndPoint");//获得所有子节点Iterator iterator1 = endPointElement.elementIterator();while (iterator1.hasNext()) {Element itemElement = (Element) iterator1.next();Element textElement = itemElement.element("Text");String stringValue = textElement.getStringValue();if (name.getValue().equals("R0")) {sb.append(stringValue);R0List.add(stringValue);} else {R1List.add(stringValue);}}}}System.out.println(System.currentTimeMillis() - l);} catch (DocumentException e) {e.printStackTrace();}}

4、多种解析xml方式对比,请参考下面文章

https://blog.csdn.net/hao134838/article/details/103402694

这篇关于利用dom4j解析xml的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1108960

相关文章

网页解析 lxml 库--实战

lxml库使用流程 lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 XPath表达式提供了良好的支 持,因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。 pip install lxml lxm| 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档,下面来介绍一下 lxml 库

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

OWASP十大安全漏洞解析

OWASP(开放式Web应用程序安全项目)发布的“十大安全漏洞”列表是Web应用程序安全领域的权威指南,它总结了Web应用程序中最常见、最危险的安全隐患。以下是对OWASP十大安全漏洞的详细解析: 1. 注入漏洞(Injection) 描述:攻击者通过在应用程序的输入数据中插入恶意代码,从而控制应用程序的行为。常见的注入类型包括SQL注入、OS命令注入、LDAP注入等。 影响:可能导致数据泄

从状态管理到性能优化:全面解析 Android Compose

文章目录 引言一、Android Compose基本概念1.1 什么是Android Compose?1.2 Compose的优势1.3 如何在项目中使用Compose 二、Compose中的状态管理2.1 状态管理的重要性2.2 Compose中的状态和数据流2.3 使用State和MutableState处理状态2.4 通过ViewModel进行状态管理 三、Compose中的列表和滚动

Spring 源码解读:自定义实现Bean定义的注册与解析

引言 在Spring框架中,Bean的注册与解析是整个依赖注入流程的核心步骤。通过Bean定义,Spring容器知道如何创建、配置和管理每个Bean实例。本篇文章将通过实现一个简化版的Bean定义注册与解析机制,帮助你理解Spring框架背后的设计逻辑。我们还将对比Spring中的BeanDefinition和BeanDefinitionRegistry,以全面掌握Bean注册和解析的核心原理。

CSP 2023 提高级第一轮 CSP-S 2023初试题 完善程序第二题解析 未完

一、题目阅读 (最大值之和)给定整数序列 a0,⋯,an−1,求该序列所有非空连续子序列的最大值之和。上述参数满足 1≤n≤105 和 1≤ai≤108。 一个序列的非空连续子序列可以用两个下标 ll 和 rr(其中0≤l≤r<n0≤l≤r<n)表示,对应的序列为 al,al+1,⋯,ar​。两个非空连续子序列不同,当且仅当下标不同。 例如,当原序列为 [1,2,1,2] 时,要计算子序列 [

intellij idea generatorConfig.xml

generatorConfig.xml <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE generatorConfigurationPUBLIC "-//mybatis.org//DTD MyBatis Generator Configuration 1.0//EN""http://mybatis.org/dtd/mybatis-ge

多线程解析报表

假如有这样一个需求,当我们需要解析一个Excel里多个sheet的数据时,可以考虑使用多线程,每个线程解析一个sheet里的数据,等到所有的sheet都解析完之后,程序需要提示解析完成。 Way1 join import java.time.LocalTime;public class Main {public static void main(String[] args) thro

ZooKeeper 中的 Curator 框架解析

Apache ZooKeeper 是一个为分布式应用提供一致性服务的软件。它提供了诸如配置管理、分布式同步、组服务等功能。在使用 ZooKeeper 时,Curator 是一个非常流行的客户端库,它简化了 ZooKeeper 的使用,提供了高级的抽象和丰富的工具。本文将详细介绍 Curator 框架,包括它的设计哲学、核心组件以及如何使用 Curator 来简化 ZooKeeper 的操作。 1

Unity3D自带Mouse Look鼠标视角代码解析。

Unity3D自带Mouse Look鼠标视角代码解析。 代码块 代码块语法遵循标准markdown代码,例如: using UnityEngine;using System.Collections;/// MouseLook rotates the transform based on the mouse delta./// Minimum and Maximum values can