【Java】使用poi+pdfbox实现office文件提取内容

2024-05-02 15:48

本文主要是介绍【Java】使用poi+pdfbox实现office文件提取内容,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

引入maven依赖

<!-- poi -->
<dependency><groupId>org.apache.poi</groupId><artifactId>poi</artifactId><version>3.16</version>
</dependency>
<dependency><groupId>org.apache.poi</groupId><artifactId>poi-ooxml</artifactId><version>3.16</version>
</dependency>
<dependency><groupId>org.apache.poi</groupId><artifactId>poi-scratchpad</artifactId><version>3.16</version>
</dependency><!-- pdf -->
<dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox</artifactId><version>2.0.4</version>
</dependency>

提取内容

private static String read(File file) {StringBuilder builder = new StringBuilder();String name = file.getName();boolean txt = name.endsWith(".txt");if (txt) {try (FileInputStream inputStream = new FileInputStream(file)) {int len;byte[] bytes = new byte[1024];while ((len = inputStream.read(bytes)) != -1) {builder.append(new String(bytes, 0, len));}inputStream.close();} catch (IOException e) {e.printStackTrace();}}POITextExtractor extractor = null;boolean word = name.endsWith(".doc") || name.endsWith(".docx");if (word) {try {extractor = new WordExtractor(new HWPFDocument(new FileInputStream(file)));} catch (Exception e) {try {extractor = new XWPFWordExtractor(new XWPFDocument(new FileInputStream(file)));} catch (Exception ignored) {}}}boolean excel = name.endsWith(".xls") || name.endsWith(".xlsx");if (excel) {try {extractor = new ExcelExtractor(new HSSFWorkbook(new POIFSFileSystem(file)));} catch (Exception e) {try {extractor = new XSSFExcelExtractor(new XSSFWorkbook(file));} catch (Exception ignored) {}}}boolean slide = name.endsWith(".ppt") || name.endsWith(".pptx");if (slide) {try {extractor = new PowerPointExtractor(new FileInputStream(file));} catch (Exception e) {try {extractor = new XSLFPowerPointExtractor(new XSLFSlideShow(OPCPackage.open(file)));} catch (Exception ignored) {}}}if (extractor != null) {builder.append(extractor.getText());try {extractor.close();} catch (IOException ignored) {}}boolean pdf = name.endsWith(".pdf");if (pdf) {try {PDDocument document = PDDocument.load(file);PDFTextStripper stripper = new PDFTextStripper();builder.append(stripper.getText(document));document.close();} catch (IOException e) {e.printStackTrace();}}return builder.toString();
}

 

这篇关于【Java】使用poi+pdfbox实现office文件提取内容的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/954608

相关文章

Conda与Python venv虚拟环境的区别与使用方法详解

《Conda与Pythonvenv虚拟环境的区别与使用方法详解》随着Python社区的成长,虚拟环境的概念和技术也在不断发展,:本文主要介绍Conda与Pythonvenv虚拟环境的区别与使用... 目录前言一、Conda 与 python venv 的核心区别1. Conda 的特点2. Python v

Spring Boot中WebSocket常用使用方法详解

《SpringBoot中WebSocket常用使用方法详解》本文从WebSocket的基础概念出发,详细介绍了SpringBoot集成WebSocket的步骤,并重点讲解了常用的使用方法,包括简单消... 目录一、WebSocket基础概念1.1 什么是WebSocket1.2 WebSocket与HTTP

C#中Guid类使用小结

《C#中Guid类使用小结》本文主要介绍了C#中Guid类用于生成和操作128位的唯一标识符,用于数据库主键及分布式系统,支持通过NewGuid、Parse等方法生成,感兴趣的可以了解一下... 目录前言一、什么是 Guid二、生成 Guid1. 使用 Guid.NewGuid() 方法2. 从字符串创建

SpringBoot+Docker+Graylog 如何让错误自动报警

《SpringBoot+Docker+Graylog如何让错误自动报警》SpringBoot默认使用SLF4J与Logback,支持多日志级别和配置方式,可输出到控制台、文件及远程服务器,集成ELK... 目录01 Spring Boot 默认日志框架解析02 Spring Boot 日志级别详解03 Sp

Python使用python-can实现合并BLF文件

《Python使用python-can实现合并BLF文件》python-can库是Python生态中专注于CAN总线通信与数据处理的强大工具,本文将使用python-can为BLF文件合并提供高效灵活... 目录一、python-can 库:CAN 数据处理的利器二、BLF 文件合并核心代码解析1. 基础合

java中反射Reflection的4个作用详解

《java中反射Reflection的4个作用详解》反射Reflection是Java等编程语言中的一个重要特性,它允许程序在运行时进行自我检查和对内部成员(如字段、方法、类等)的操作,本文将详细介绍... 目录作用1、在运行时判断任意一个对象所属的类作用2、在运行时构造任意一个类的对象作用3、在运行时判断

Python使用OpenCV实现获取视频时长的小工具

《Python使用OpenCV实现获取视频时长的小工具》在处理视频数据时,获取视频的时长是一项常见且基础的需求,本文将详细介绍如何使用Python和OpenCV获取视频时长,并对每一行代码进行深入解析... 目录一、代码实现二、代码解析1. 导入 OpenCV 库2. 定义获取视频时长的函数3. 打开视频文

golang版本升级如何实现

《golang版本升级如何实现》:本文主要介绍golang版本升级如何实现问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录golanwww.chinasem.cng版本升级linux上golang版本升级删除golang旧版本安装golang最新版本总结gola

java如何解压zip压缩包

《java如何解压zip压缩包》:本文主要介绍java如何解压zip压缩包问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Java解压zip压缩包实例代码结果如下总结java解压zip压缩包坐在旁边的小伙伴问我怎么用 java 将服务器上的压缩文件解压出来,

SpringBoot中SM2公钥加密、私钥解密的实现示例详解

《SpringBoot中SM2公钥加密、私钥解密的实现示例详解》本文介绍了如何在SpringBoot项目中实现SM2公钥加密和私钥解密的功能,通过使用Hutool库和BouncyCastle依赖,简化... 目录一、前言1、加密信息(示例)2、加密结果(示例)二、实现代码1、yml文件配置2、创建SM2工具