Java使用IText生产PDF时,中文标点符号出现在行首的问题处理

2024-01-11 09:52

本文主要是介绍Java使用IText生产PDF时,中文标点符号出现在行首的问题处理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Java使用IText生成PDF时,中文标点符号出现在行首的问题处理

使用itext 5进行html转成pdf时,标点符号出现在某一行的开头 但这种情况下显然不符合中文书写的规则,主要问题出在itext中的DefaultSplitCharacter类,该方法主要用来判断字符是否为可拆分字符。

itext 版本:5.5.13

解决办法:
1、可以通过修改源码的方式,可以参考
如何修改jar包源码以及解决iText生成pdf时中文标点存在行首问题

2、如果不想修改源码,也可以在自己项目中创建与itext中DefaultSplitCharacter相同的包路径,并在该包下重新DefaultSplitCharacter类,能这样处理的原因,与类的加载顺序有关。
在这里插入图片描述

package com.itextpdf.text.pdf;import com.itextpdf.text.SplitCharacter;public class DefaultSplitCharacter implements SplitCharacter {/*** An instance of the default SplitCharacter.*/public static final SplitCharacter DEFAULT = new DefaultSplitCharacter();// line of text cannot start or end with this characterstatic final char u2060 = '\u2060'; // - ZERO WIDTH NO BREAK SPACE// a line of text cannot start with any following characters in// NOT_BEGIN_CHARACTERS[]static final char u30fb = '\u30fb'; // ・ - KATAKANA MIDDLE DOTstatic final char u2022 = '\u2022'; // • - BLACK SMALL CIRCLE (BULLET)static final char uff65 = '\uff65'; // ・ - HALFWIDTH KATAKANA MIDDLE DOTstatic final char u300d = '\u300d'; // 」 - RIGHT CORNER BRACKETstatic final char uff09 = '\uff09'; // ) - FULLWIDTH RIGHT PARENTHESISstatic final char u0021 = '\u0021'; // ! - EXCLAMATION MARKstatic final char u0025 = '\u0025'; // % - PERCENT SIGNstatic final char u0029 = '\u0029'; // ) - RIGHT PARENTHESISstatic final char u002c = '\u002c'; // , - COMMAstatic final char u002e = '\u002e'; // . - FULL STOPstatic final char u003f = '\u003f'; // ? - QUESTION MARKstatic final char u005d = '\u005d'; // ] - RIGHT SQUARE BRACKETstatic final char u007d = '\u007d'; // } - RIGHT CURLYstatic final char uff61 = '\uff61'; // 。 - HALFWIDTH IDEOGRAPHIC FULL STOPstatic final char uff70 = '\uff70'; // ー - HALFWIDTH KATAKANA-HIRAGANA PROLONGED SOUND MARKstatic final char uff9e = '\uff9e'; // ゙ - HALFWIDTH KATAKANA VOICED SOUND MARKstatic final char uff9f = '\uff9f'; // ゚ - HALFWIDTH KATAKANA SEMI-VOICED SOUND MARKstatic final char u3001 = '\u3001'; // 、 - IDEOGRAPHIC COMMAstatic final char u3002 = '\u3002'; // 。 - IDEOGRAPHIC FULL STOPstatic final char uff0c = '\uff0c'; // , - FULLWIDTH COMMAstatic final char uff0e = '\uff0e'; // . - FULLWIDTH FULL STOPstatic final char uff1a = '\uff1a'; // : - FULLWIDTH COLONstatic final char uff1b = '\uff1b'; // ; - FULLWIDTH SEMICOLONstatic final char uff1f = '\uff1f'; // ? - FULLWIDTH QUESTION MARKstatic final char uff01 = '\uff01'; // ! - FULLWIDTH EXCLAMATION MARKstatic final char u309b = '\u309b'; // ゛ - KATAKANA-HIRAGANA VOICED SOUND MARKstatic final char u309c = '\u309c'; // ゜ - KATAKANA-HIRAGANA SEMI-VOICED SOUND MARKstatic final char u30fd = '\u30fd'; // ヽ - KATAKANA ITERATION MARKstatic final char u2019 = '\u2019'; // ’ - RIGHT SINGLE QUOTATION MARKstatic final char u201d = '\u201d'; // ” - RIGHT DOUBLE QUOTATION MARKstatic final char u3015 = '\u3015'; // 〕 - RIGHT TORTOISE SHELL BRACKETstatic final char uff3d = '\uff3d'; // ] - FULLWIDTH RIGHT SQUARE BRACKETstatic final char uff5d = '\uff5d'; // } - FULLWIDTH RIGHT CURLY BRACKETstatic final char u3009 = '\u3009'; // 〉 - RIGHT ANGLE BRACKETstatic final char u300b = '\u300b'; // 》 - RIGHT DOUBLE ANGLE BRACKETstatic final char u300f = '\u300f'; // 』 - RIGHT WHITE CORNER BRACKETstatic final char u3011 = '\u3011'; // 】 - RIGHT BLACK LENTICULAR BRACKETstatic final char u00b0 = '\u00b0'; // ° - DEGREE SIGNstatic final char u2032 = '\u2032'; // ′ - PRIMEstatic final char u2033 = '\u2033'; // ″ - DOUBLE PRIMEstatic final char[] NOT_BEGIN_CHARACTERS = new char[] { u30fb, u2022, uff65, u300d, uff09, u0021, u0025, u0029,u002c, u002e, u003f, u005d, u007d, uff61, uff70, uff9e, uff9f, u3001, u3002, uff0c, uff0e, uff1a, uff1b,uff1f, uff01, u309b, u309c, u30fd, u2019, u201d, u3015, uff3d, uff5d, u3009, u300b, u300f, u3011, u00b0,u2032, u2033, u2060 };// a line of text cannot end with any following characters in// NOT_ENDING_CHARACTERS[]static final char u0024 = '\u0024'; // $ - DOLLAR SIGNstatic final char u0028 = '\u0028'; // ( - LEFT PARENTHESISstatic final char u005b = '\u005b'; // [ - LEFT SQUARE BRACKETstatic final char u007b = '\u007b'; // { - LEFT CURLY BRACKETstatic final char u00a3 = '\u00a3'; // £ - POUND SIGNstatic final char u00a5 = '\u00a5'; // ¥ - YEN SIGNstatic final char u201c = '\u201c'; // “ - LEFT DOUBLE QUOTATION MARKstatic final char u2018 = '\u2018'; // ‘ - LEFT SINGLE QUOTATION MARKstatic final char u300a = '\u300a'; // 《 - LEFT DOUBLE ANGLE BRACKETstatic final char u3008 = '\u3008'; // 〈 - LEFT ANGLE BRACKETstatic final char u300c = '\u300c'; // 「 - LEFT CORNER BRACKETstatic final char u300e = '\u300e'; // 『 - LEFT WHITE CORNER BRACKETstatic final char u3010 = '\u3010'; // 【 - LEFT BLACK LENTICULAR BRACKETstatic final char u3014 = '\u3014'; // 〔 - LEFT TORTOISE SHELL BRACKETstatic final char uff62 = '\uff62'; // 「 - HALFWIDTH LEFT CORNER BRACKETstatic final char uff08 = '\uff08'; // ( - FULLWIDTH LEFT PARENTHESISstatic final char uff3b = '\uff3b'; // [ - FULLWIDTH LEFT SQUARE BRACKETstatic final char uff5b = '\uff5b'; // { - FULLWIDTH LEFT CURLY BRACKETstatic final char uffe5 = '\uffe5'; // ¥ - FULLWIDTH YEN SIGNstatic final char uff04 = '\uff04'; // $ - FULLWIDTH DOLLAR SIGNstatic final char[] NOT_ENDING_CHARACTERS = new char[] { u0024, u0028, u005b, u007b, u00a3, u00a5, u201c, u2018,u3008, u300a, u300c, u300e, u3010, u3014, uff62, uff08, uff3b, uff5b, uffe5, uff04, u2060 };@Overridepublic boolean isSplitCharacter(int start, int current, int end, char[] cc, PdfChunk[] ck) {// Note: If you don't add an try/catch and there is an issue with// isSplitCharacter(), iText silently fails and// you have no idea there was a problem.try {char c = getCharacter(current, cc, ck);int next = current + 1;if (next < cc.length) {char charNext = getCharacter(next, cc, ck);for (char not_begin_character : NOT_BEGIN_CHARACTERS) {if (charNext == not_begin_character) {return false;}}}for (char not_ending_character : NOT_ENDING_CHARACTERS) {if (c == not_ending_character) {return false;}}if (c <= ' ' || c == '-' || c == '\u2010') {return true;}if (c < 0x2002)return false;return ((c >= 0x2002 && c <= 0x200b)|| (c >= 0x2e80 && c < 0xd7a0)|| (c >= 0xf900 && c < 0xfb00)|| (c >= 0xfe30 && c < 0xfe50)|| (c >= 0xff61 && c < 0xffa0));} catch (Exception ex) {ex.printStackTrace();}return true;}/*** Returns a character int the array (Note: modified from the iText default* version with the addition null check of '|| ck[Math.min(position, ck.length -* 1)] == null'.** @param position position in the array* @param ck       chunk array* @param cc       the character array that has to be checked* @return the character*/protected char getCharacter(int position, char[] cc, PdfChunk[] ck) {if (ck == null || ck[Math.min(position, ck.length - 1)] == null) {return cc[position];}return (char) ck[Math.min(position, ck.length - 1)].getUnicodeEquivalent(cc[position]);}
}

这篇关于Java使用IText生产PDF时,中文标点符号出现在行首的问题处理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/593989

相关文章

JVM 的类初始化机制

前言 当你在 Java 程序中new对象时,有没有考虑过 JVM 是如何把静态的字节码(byte code)转化为运行时对象的呢,这个问题看似简单,但清楚的同学相信也不会太多,这篇文章首先介绍 JVM 类初始化的机制,然后给出几个易出错的实例来分析,帮助大家更好理解这个知识点。 JVM 将字节码转化为运行时对象分为三个阶段,分别是:loading 、Linking、initialization

Spring Security 基于表达式的权限控制

前言 spring security 3.0已经可以使用spring el表达式来控制授权,允许在表达式中使用复杂的布尔逻辑来控制访问的权限。 常见的表达式 Spring Security可用表达式对象的基类是SecurityExpressionRoot。 表达式描述hasRole([role])用户拥有制定的角色时返回true (Spring security默认会带有ROLE_前缀),去

浅析Spring Security认证过程

类图 为了方便理解Spring Security认证流程,特意画了如下的类图,包含相关的核心认证类 概述 核心验证器 AuthenticationManager 该对象提供了认证方法的入口,接收一个Authentiaton对象作为参数; public interface AuthenticationManager {Authentication authenticate(Authenti

Spring Security--Architecture Overview

1 核心组件 这一节主要介绍一些在Spring Security中常见且核心的Java类,它们之间的依赖,构建起了整个框架。想要理解整个架构,最起码得对这些类眼熟。 1.1 SecurityContextHolder SecurityContextHolder用于存储安全上下文(security context)的信息。当前操作的用户是谁,该用户是否已经被认证,他拥有哪些角色权限…这些都被保

Spring Security基于数据库验证流程详解

Spring Security 校验流程图 相关解释说明(认真看哦) AbstractAuthenticationProcessingFilter 抽象类 /*** 调用 #requiresAuthentication(HttpServletRequest, HttpServletResponse) 决定是否需要进行验证操作。* 如果需要验证,则会调用 #attemptAuthentica

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

Java架构师知识体认识

源码分析 常用设计模式 Proxy代理模式Factory工厂模式Singleton单例模式Delegate委派模式Strategy策略模式Prototype原型模式Template模板模式 Spring5 beans 接口实例化代理Bean操作 Context Ioc容器设计原理及高级特性Aop设计原理Factorybean与Beanfactory Transaction 声明式事物

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

无人叉车3d激光slam多房间建图定位异常处理方案-墙体画线地图切分方案

墙体画线地图切分方案 针对问题:墙体两侧特征混淆误匹配,导致建图和定位偏差,表现为过门跳变、外月台走歪等 ·解决思路:预期的根治方案IGICP需要较长时间完成上线,先使用切分地图的工程化方案,即墙体两侧切分为不同地图,在某一侧只使用该侧地图进行定位 方案思路 切分原理:切分地图基于关键帧位置,而非点云。 理论基础:光照是直线的,一帧点云必定只能照射到墙的一侧,无法同时照到两侧实践考虑:关

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na