DFA算法实现铭感词过滤(二)

2024-01-11 03:52
文章标签 算法 实现 过滤 dfa 铭感

本文主要是介绍DFA算法实现铭感词过滤(二),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

这里的项目实战, 我们使用的是 SpringBoot2.x+JDK1.8搭建的,核心思想是借助了Hutool工具类的 WordTree。想了解更多DFA算法的实现可以参考DFA算法的实现

实战案例

1. 引入Hutool的工具类

<dependency><groupId>cn.hutool</groupId><artifactId>hutool-all</artifactId><version>5.8.18</version>
</dependency>

2. 自定义铭感词过滤处理器

Hutool工具类中定义了 SensitiveProcessor 接口,它的作用是把敏感词替换成 *

package cn.hutool.dfa;/*** @author 肖海斌* 敏感词过滤处理器,默认按字符数替换成**/
public interface SensitiveProcessor {/*** 敏感词过滤处理* @param foundWord 敏感词匹配到的内容* @return 敏感词过滤后的内容,默认按字符数替换成**/default String process(FoundWord foundWord) {int length = foundWord.getFoundWord().length();StringBuilder sb = new StringBuilder(length);for (int i = 0; i < length; i++) {sb.append("*");}return sb.toString();}
}

我们可以根据不同的业务需求,实现不同的处理器。这里可以定义了一个默认处理器高亮处理器

SensitiveDefaultProcessor 默认处理器和原逻辑一样,可以直接调用父类的process()方法实现把铭感词替换为*

import cn.hutool.dfa.FoundWord;
import cn.hutool.dfa.SensitiveProcessor;/*** 自定义敏感词*号替代处理器*/
public class SensitiveDefaultProcessor implements SensitiveProcessor {}

SensitiveHighlightProcessor 定义了敏感词进行高亮处理,可以在铭感词前后打上对应的标签。


import cn.hutool.dfa.FoundWord;
import cn.hutool.dfa.SensitiveProcessor;/*** 自定义敏感词高亮处理器*/
public class SensitiveHighlightProcessor implements SensitiveProcessor {private static final String SHIELD_START = "<shield>";private static final String SHIELD_END = "</shield>";private static final String DST_START = "<dst>";private static final String DST_END = "</dst>";private static final String WARN_START = "<warn>";private static final String WARN_END = "</warn>";@Overridepublic String process(FoundWord foundWord) {String word = foundWord.getFoundWord();StringBuilder sb = new StringBuilder();sb.append(WARN_START).append(word).append(WARN_END);return sb.toString();}public String process(FoundWord foundWord, SensitiveWordModeEnum mode) {String word = foundWord.getFoundWord();StringBuilder sb = new StringBuilder();if (SensitiveWordModeEnum.SHIELD.equals(mode)) {sb.append(SHIELD_START).append(word).append(SHIELD_END);} else if (SensitiveWordModeEnum.DST.equals(mode)) {sb.append(DST_START).append(word).append(DST_END);} else if (SensitiveWordModeEnum.WARN.equals(mode)) {sb.append(WARN_START).append(word).append(WARN_END);}return sb.toString();}
}

其中 SensitiveWordModeEnum 是自己定义的一个敏感词模式枚举

import com.baomidou.mybatisplus.annotation.EnumValue;
import com.fasterxml.jackson.annotation.JsonValue;
import lombok.AllArgsConstructor;
import lombok.Getter;/*** 敏感词模式枚举**/
@AllArgsConstructor
@Getter
public enum SensitiveWordModeEnum {SHIELD("SHIELD", "屏蔽"),DST("DST", "脱敏"),WARN("WARN", "警告");@EnumValue@JsonValueprivate final String code;private final String name;
}

3. 定义铭感词初始化工具

通常来说,铭感词的内容是相对固定的。我们在项目启动时可以进行预加载。当铭感词变更时,我们可以通过更新本地缓存,定时刷新的方法进行处理。

Tips: 我们可以定义初始化类,它实现了ApplicationRunner接口。这个类中的 run方法将会在Boot项目的程序的入口方法 main 执行完毕之后被调用。在该类中可以定义一些应用程序启动后需要进行初始化的操作任务


/*** 敏感词工具类*/
@Slf4j
@Component
public class SensitiveWordUtil implements ApplicationRunner {// 一个定义铭感词查找的Dao层 [查询数据库中的敏感词数据]@Resourceprivate SensitiveWordConfigDao sensitiveWordConfigDao;// DFA敏感词树private static final WordTree SENSITIVE_TREE = new WordTree();// 定义了一个初始化的敏感词容器private static final ConcurrentHashMap<String, SensitiveWordConfigVO> SENSITIVE_WORDS_MAP = new ConcurrentHashMap<>();@Overridepublic void run(ApplicationArguments args) {// 1.查询数据库中的铭感词列表List<SensitiveWordConfig> sensitiveWordConfigList = sensitiveWordConfigDao.list();if (ObjectUtil.isEmpty(sensitiveWordConfigList)) {return;}for (SensitiveWordConfig sensitiveWord : sensitiveWordConfigList) {// 1.1 敏感词VO对象的转换SensitiveWordConfigVO sensitiveWordConfigVO = new SensitiveWordConfigVO();BeanUtils.copyProperties(sensitiveWord, sensitiveWordConfigVO);                       //1.2 本地容器缓存的初始化SENSITIVE_WORDS_MAP.put(sensitiveWordConfigVO.getWord(), sensitiveWordConfigVO);}// 1.3 初始DFA敏感词树this.init(ListUtil.toList(SENSITIVE_WORDS_MAP.keys()), true);log.info("初始化敏感词库完毕, 共" + sensitiveWordConfigList.size() + "个敏感词");}/*** 初始化敏感词树* @param isAsync        是否异步初始化* @param sensitiveWords 敏感词列表*/public void init(final Collection<String> sensitiveWords, boolean isAsync) {if (isAsync) {ThreadUtil.execAsync(() -> {init(sensitiveWords);return true;});} else {init(sensitiveWords);}}/*** 初始化敏感词树** @param sensitiveWords 敏感词列表*/public void init(Collection<String> sensitiveWords) {SENSITIVE_TREE.clear();SENSITIVE_TREE.addWords(sensitiveWords);}
}

上面的工具类调用 run() 方法后,就能实现铭感词容器的初始化
除了定义一些最基础的初始化步骤外,我们可以把一些添加铭感词,移除敏感词,查找等方法都定义在该类中。

// 添加敏感词
public static void addSensitiveWord(SensitiveWordConfig sw) {SensitiveWordConfigVO vo = new SensitiveWordConfigVO();BeanUtils.copyProperties(sensitiveWord, vo);      SENSITIVE_WORDS_MAP.put(sw.getWord(), vo);SENSITIVE_TREE.addWord(sw.getWord());
}// 移除敏感词
public static void removeSensitiveWord(String word) {SENSITIVE_WORDS_MAP.remove(word);SENSITIVE_TREE.clear();SENSITIVE_TREE.addWords(ListUtil.toList(SENSITIVE_WORDS_MAP.keySet()));
}/*** 查找敏感词,返回找到的第一个敏感词** @param text 文本* @return 敏感词* @since 5.5.3*/
public static FoundWord getFoundFirstSensitive(String text) {return SENSITIVE_TREE.matchWord(text);
}// 还可以通过上面的processor处理器进行敏感词处理

至此,我们在项目中只要引入SensitiveWordUtil 工具类,就能实现敏感词的基本操作了。

这篇关于DFA算法实现铭感词过滤(二)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/593080

相关文章

openCV中KNN算法的实现

《openCV中KNN算法的实现》KNN算法是一种简单且常用的分类算法,本文主要介绍了openCV中KNN算法的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录KNN算法流程使用OpenCV实现KNNOpenCV 是一个开源的跨平台计算机视觉库,它提供了各

OpenCV图像形态学的实现

《OpenCV图像形态学的实现》本文主要介绍了OpenCV图像形态学的实现,包括腐蚀、膨胀、开运算、闭运算、梯度运算、顶帽运算和黑帽运算,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来一起... 目录一、图像形态学简介二、腐蚀(Erosion)1. 原理2. OpenCV 实现三、膨胀China编程(

通过Spring层面进行事务回滚的实现

《通过Spring层面进行事务回滚的实现》本文主要介绍了通过Spring层面进行事务回滚的实现,包括声明式事务和编程式事务,具有一定的参考价值,感兴趣的可以了解一下... 目录声明式事务回滚:1. 基础注解配置2. 指定回滚异常类型3. ​不回滚特殊场景编程式事务回滚:1. ​使用 TransactionT

Android实现打开本地pdf文件的两种方式

《Android实现打开本地pdf文件的两种方式》在现代应用中,PDF格式因其跨平台、稳定性好、展示内容一致等特点,在Android平台上,如何高效地打开本地PDF文件,不仅关系到用户体验,也直接影响... 目录一、项目概述二、相关知识2.1 PDF文件基本概述2.2 android 文件访问与存储权限2.

使用Python实现全能手机虚拟键盘的示例代码

《使用Python实现全能手机虚拟键盘的示例代码》在数字化办公时代,你是否遇到过这样的场景:会议室投影电脑突然键盘失灵、躺在沙发上想远程控制书房电脑、或者需要给长辈远程协助操作?今天我要分享的Pyth... 目录一、项目概述:不止于键盘的远程控制方案1.1 创新价值1.2 技术栈全景二、需求实现步骤一、需求

Spring Shell 命令行实现交互式Shell应用开发

《SpringShell命令行实现交互式Shell应用开发》本文主要介绍了SpringShell命令行实现交互式Shell应用开发,能够帮助开发者快速构建功能丰富的命令行应用程序,具有一定的参考价... 目录引言一、Spring Shell概述二、创建命令类三、命令参数处理四、命令分组与帮助系统五、自定义S

SpringBatch数据写入实现

《SpringBatch数据写入实现》SpringBatch通过ItemWriter接口及其丰富的实现,提供了强大的数据写入能力,本文主要介绍了SpringBatch数据写入实现,具有一定的参考价值,... 目录python引言一、ItemWriter核心概念二、数据库写入实现三、文件写入实现四、多目标写入

Android Studio 配置国内镜像源的实现步骤

《AndroidStudio配置国内镜像源的实现步骤》本文主要介绍了AndroidStudio配置国内镜像源的实现步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,... 目录一、修改 hosts,解决 SDK 下载失败的问题二、修改 gradle 地址,解决 gradle

SpringSecurity JWT基于令牌的无状态认证实现

《SpringSecurityJWT基于令牌的无状态认证实现》SpringSecurity中实现基于JWT的无状态认证是一种常见的做法,本文就来介绍一下SpringSecurityJWT基于令牌的无... 目录引言一、JWT基本原理与结构二、Spring Security JWT依赖配置三、JWT令牌生成与

SpringBoot实现微信小程序支付功能

《SpringBoot实现微信小程序支付功能》小程序支付功能已成为众多应用的核心需求之一,本文主要介绍了SpringBoot实现微信小程序支付功能,文中通过示例代码介绍的非常详细,对大家的学习或者工作... 目录一、引言二、准备工作(一)微信支付商户平台配置(二)Spring Boot项目搭建(三)配置文件