【Java】使用poi+pdfbox实现office文件提取内容

2024-05-02 15:48

本文主要是介绍【Java】使用poi+pdfbox实现office文件提取内容,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

引入maven依赖

<!-- poi -->
<dependency><groupId>org.apache.poi</groupId><artifactId>poi</artifactId><version>3.16</version>
</dependency>
<dependency><groupId>org.apache.poi</groupId><artifactId>poi-ooxml</artifactId><version>3.16</version>
</dependency>
<dependency><groupId>org.apache.poi</groupId><artifactId>poi-scratchpad</artifactId><version>3.16</version>
</dependency><!-- pdf -->
<dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox</artifactId><version>2.0.4</version>
</dependency>

提取内容

private static String read(File file) {StringBuilder builder = new StringBuilder();String name = file.getName();boolean txt = name.endsWith(".txt");if (txt) {try (FileInputStream inputStream = new FileInputStream(file)) {int len;byte[] bytes = new byte[1024];while ((len = inputStream.read(bytes)) != -1) {builder.append(new String(bytes, 0, len));}inputStream.close();} catch (IOException e) {e.printStackTrace();}}POITextExtractor extractor = null;boolean word = name.endsWith(".doc") || name.endsWith(".docx");if (word) {try {extractor = new WordExtractor(new HWPFDocument(new FileInputStream(file)));} catch (Exception e) {try {extractor = new XWPFWordExtractor(new XWPFDocument(new FileInputStream(file)));} catch (Exception ignored) {}}}boolean excel = name.endsWith(".xls") || name.endsWith(".xlsx");if (excel) {try {extractor = new ExcelExtractor(new HSSFWorkbook(new POIFSFileSystem(file)));} catch (Exception e) {try {extractor = new XSSFExcelExtractor(new XSSFWorkbook(file));} catch (Exception ignored) {}}}boolean slide = name.endsWith(".ppt") || name.endsWith(".pptx");if (slide) {try {extractor = new PowerPointExtractor(new FileInputStream(file));} catch (Exception e) {try {extractor = new XSLFPowerPointExtractor(new XSLFSlideShow(OPCPackage.open(file)));} catch (Exception ignored) {}}}if (extractor != null) {builder.append(extractor.getText());try {extractor.close();} catch (IOException ignored) {}}boolean pdf = name.endsWith(".pdf");if (pdf) {try {PDDocument document = PDDocument.load(file);PDFTextStripper stripper = new PDFTextStripper();builder.append(stripper.getText(document));document.close();} catch (IOException e) {e.printStackTrace();}}return builder.toString();
}

 

这篇关于【Java】使用poi+pdfbox实现office文件提取内容的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/954608

相关文章

Spring Security简介、使用与最佳实践

《SpringSecurity简介、使用与最佳实践》SpringSecurity是一个能够为基于Spring的企业应用系统提供声明式的安全访问控制解决方案的安全框架,本文给大家介绍SpringSec... 目录一、如何理解 Spring Security?—— 核心思想二、如何在 Java 项目中使用?——

SpringBoot+RustFS 实现文件切片极速上传的实例代码

《SpringBoot+RustFS实现文件切片极速上传的实例代码》本文介绍利用SpringBoot和RustFS构建高性能文件切片上传系统,实现大文件秒传、断点续传和分片上传等功能,具有一定的参考... 目录一、为什么选择 RustFS + SpringBoot?二、环境准备与部署2.1 安装 RustF

Nginx部署HTTP/3的实现步骤

《Nginx部署HTTP/3的实现步骤》本文介绍了在Nginx中部署HTTP/3的详细步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录前提条件第一步:安装必要的依赖库第二步:获取并构建 BoringSSL第三步:获取 Nginx

springboot中使用okhttp3的小结

《springboot中使用okhttp3的小结》OkHttp3是一个JavaHTTP客户端,可以处理各种请求类型,比如GET、POST、PUT等,并且支持高效的HTTP连接池、请求和响应缓存、以及异... 在 Spring Boot 项目中使用 OkHttp3 进行 HTTP 请求是一个高效且流行的方式。

java.sql.SQLTransientConnectionException连接超时异常原因及解决方案

《java.sql.SQLTransientConnectionException连接超时异常原因及解决方案》:本文主要介绍java.sql.SQLTransientConnectionExcep... 目录一、引言二、异常信息分析三、可能的原因3.1 连接池配置不合理3.2 数据库负载过高3.3 连接泄漏

MyBatis Plus实现时间字段自动填充的完整方案

《MyBatisPlus实现时间字段自动填充的完整方案》在日常开发中,我们经常需要记录数据的创建时间和更新时间,传统的做法是在每次插入或更新操作时手动设置这些时间字段,这种方式不仅繁琐,还容易遗漏,... 目录前言解决目标技术栈实现步骤1. 实体类注解配置2. 创建元数据处理器3. 服务层代码优化填充机制详

Python实现Excel批量样式修改器(附完整代码)

《Python实现Excel批量样式修改器(附完整代码)》这篇文章主要为大家详细介绍了如何使用Python实现一个Excel批量样式修改器,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一... 目录前言功能特性核心功能界面特性系统要求安装说明使用指南基本操作流程高级功能技术实现核心技术栈关键函

javacv依赖太大导致jar包也大的解决办法

《javacv依赖太大导致jar包也大的解决办法》随着项目的复杂度和依赖关系的增加,打包后的JAR包可能会变得很大,:本文主要介绍javacv依赖太大导致jar包也大的解决办法,文中通过代码介绍的... 目录前言1.检查依赖2.更改依赖3.检查副依赖总结 前言最近在写项目时,用到了Javacv里的获取视频

Java实现字节字符转bcd编码

《Java实现字节字符转bcd编码》BCD是一种将十进制数字编码为二进制的表示方式,常用于数字显示和存储,本文将介绍如何在Java中实现字节字符转BCD码的过程,需要的小伙伴可以了解下... 目录前言BCD码是什么Java实现字节转bcd编码方法补充总结前言BCD码(Binary-Coded Decima

SpringBoot全局域名替换的实现

《SpringBoot全局域名替换的实现》本文主要介绍了SpringBoot全局域名替换的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录 项目结构⚙️ 配置文件application.yml️ 配置类AppProperties.Ja