WordShield 一款轻量级且灵活的敏感词过滤库

2024-09-02 09:12

本文主要是介绍WordShield 一款轻量级且灵活的敏感词过滤库,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

简介

WordShield 是一款轻量级且灵活的敏感词过滤库,基于 Spring Boot 构建。它提供了简单易用的 API,用于过滤和管理敏感词汇。

特性

敏感词过滤:自动过滤字符串中的敏感词汇。
默认敏感词列表:内置预设的敏感词列表。
可定制敏感词列表:支持从指定路径加载自定义敏感词列表。
动态管理:允许动态添加或移除敏感词。
Spring Boot 集成:自动在应用上下文中注册 SensitiveWordFilter Bean。

快速开始

准备工作

Java 8 或更高版本
Spring Boot 2.x 或更高版本
Maven 或 Gradle

添加依赖

Maven
在 pom.xml 文件中添加以下依赖:

<dependency><groupId>io.github.avidbyte</groupId><artifactId>wordshield</artifactId><version>1.0.0</version>
</dependency>

Gradle
在 build.gradle 文件中添加以下依赖:

dependencies {implementation 'io.github.avidbyte:wordshield:1.0.0'
}

使用方法

初始化过滤器
添加依赖后,SensitiveWordFilter Bean 会被自动注册。您可以在服务类中直接使用它:

import io.github.avidbyte.wordshield.SensitiveWordFilter;@Slf4j
@Service
public class ContentService {private final SensitiveWordFilter sensitiveWordFilter;public ContentService(SensitiveWordFilter sensitiveWordFilter) {this.sensitiveWordFilter = sensitiveWordFilter;}public String filterContent(String content) {SensitiveWordResult sensitiveWordResult = sensitiveWordFilter.checkAndFilter(content, "*");log.info("文本: {} 是否是敏感词: {}", content, sensitiveWordResult.isContainsSensitiveWord());log.info("文本: {} 敏感词处理结果: {}", content, sensitiveWordResult.getFilteredText());}
}

自定义敏感词列表

默认情况下,库会加载预设的敏感词列表。不过,您也可以通过提供文件路径来自定义敏感词列表:

在 application.yml 配置

sensitive:word:loadDefault: falsesource: filefilePath: /opt/sensitive_word.txt

loadDefault 为 true, wordshield 会先加载预设的敏感词列表, 如果不希望使用预设的敏感词列表, 就将 loadDefault 设置为 false

其他数据来源: database, api, etc. 可以通过这种方式加载

sensitive:word:loadDefault: falsesource: database

当前配置 wordshield 不会加载预设的敏感词, 敏感词库完全是空的, 需要使用者自己调用新增敏感词的方法构造敏感词库
通过这四个方法也可以动态地管理敏感词列表

import io.github.avidbyte.wordshield.SensitiveWordFilter;@Service
public class ContentService {private final SensitiveWordFilter sensitiveWordFilter;public ContentService(SensitiveWordFilter sensitiveWordFilter) {this.sensitiveWordFilter = sensitiveWordFilter;}public String addSensitiveWords(List<String> words) {sensitiveWordFilter.addSensitiveWords(words);}public String addSensitiveWord(String word) {sensitiveWordFilter.addSensitiveWord(word);}public String removeSensitiveWords(List<String> words) {sensitiveWordFilter.removeSensitiveWords(words);}public String removeSensitiveWord(String word) {sensitiveWordFilter.removeSensitiveWord(word);}}

这篇关于WordShield 一款轻量级且灵活的敏感词过滤库的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1129567

相关文章

SpringBoot使用Apache Tika检测敏感信息

《SpringBoot使用ApacheTika检测敏感信息》ApacheTika是一个功能强大的内容分析工具,它能够从多种文件格式中提取文本、元数据以及其他结构化信息,下面我们来看看如何使用Ap... 目录Tika 主要特性1. 多格式支持2. 自动文件类型检测3. 文本和元数据提取4. 支持 OCR(光学

详解Java中的敏感信息处理

《详解Java中的敏感信息处理》平时开发中常常会遇到像用户的手机号、姓名、身份证等敏感信息需要处理,这篇文章主要为大家整理了一些常用的方法,希望对大家有所帮助... 目录前后端传输AES 对称加密RSA 非对称加密混合加密数据库加密MD5 + Salt/SHA + SaltAES 加密平时开发中遇到像用户的

Mybatis拦截器如何实现数据权限过滤

《Mybatis拦截器如何实现数据权限过滤》本文介绍了MyBatis拦截器的使用,通过实现Interceptor接口对SQL进行处理,实现数据权限过滤功能,通过在本地线程变量中存储数据权限相关信息,并... 目录背景基础知识MyBATis 拦截器介绍代码实战总结背景现在的项目负责人去年年底离职,导致前期规

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

高效+灵活,万博智云全球发布AWS无代理跨云容灾方案!

摘要 近日,万博智云推出了基于AWS的无代理跨云容灾解决方案,并与拉丁美洲,中东,亚洲的合作伙伴面向全球开展了联合发布。这一方案以AWS应用环境为基础,将HyperBDR平台的高效、灵活和成本效益优势与无代理功能相结合,为全球企业带来实现了更便捷、经济的数据保护。 一、全球联合发布 9月2日,万博智云CEO Michael Wong在线上平台发布AWS无代理跨云容灾解决方案的阐述视频,介绍了

pandas数据过滤

Pandas 数据过滤方法 Pandas 提供了多种方法来过滤数据,可以根据不同的条件进行筛选。以下是一些常见的 Pandas 数据过滤方法,结合实例进行讲解,希望能帮你快速理解。 1. 基于条件筛选行 可以使用布尔索引来根据条件过滤行。 import pandas as pd# 创建示例数据data = {'Name': ['Alice', 'Bob', 'Charlie', 'Dav

PR曲线——一个更敏感的性能评估工具

在不均衡数据集的情况下,精确率-召回率(Precision-Recall, PR)曲线是一种非常有用的工具,因为它提供了比传统的ROC曲线更准确的性能评估。以下是PR曲线在不均衡数据情况下的一些作用: 关注少数类:在不均衡数据集中,少数类的样本数量远少于多数类。PR曲线通过关注少数类(通常是正类)的性能来弥补这一点,因为它直接评估模型在识别正类方面的能力。 精确率与召回率的平衡:精确率(Pr

一款支持同一个屏幕界面同时播放多个视频的视频播放软件

GridPlayer 是一款基于 VLC 的免费开源跨平台多视频同步播放工具,支持在一块屏幕上同时播放多个视频。其主要功能包括: 多视频播放:用户可以在一个窗口中同时播放任意数量的视频,数量仅受硬件性能限制。支持多种格式和流媒体:GridPlayer 支持所有由 VLC 支持的视频格式以及流媒体 URL(如 m3u8 链接)。自定义网格布局:用户可以配置播放器的网格布局,以适应不同的观看需求。硬

Java8特性:分组、提取字段、去重、过滤、差集、交集

总结下自己使用过的特性 将对象集合根据某个字段分组 //根据id分组Map<String, List<Bean>> newMap = successCf.stream().collect(Collectors.groupingBy(b -> b.getId().trim())); 获取对象集合里面的某个字段的集合 List<Bean> list = new ArrayList<>