WordShield 一款轻量级且灵活的敏感词过滤库

2024-09-02 09:12

本文主要是介绍WordShield 一款轻量级且灵活的敏感词过滤库,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

简介

WordShield 是一款轻量级且灵活的敏感词过滤库,基于 Spring Boot 构建。它提供了简单易用的 API,用于过滤和管理敏感词汇。

特性

敏感词过滤:自动过滤字符串中的敏感词汇。
默认敏感词列表:内置预设的敏感词列表。
可定制敏感词列表:支持从指定路径加载自定义敏感词列表。
动态管理:允许动态添加或移除敏感词。
Spring Boot 集成:自动在应用上下文中注册 SensitiveWordFilter Bean。

快速开始

准备工作

Java 8 或更高版本
Spring Boot 2.x 或更高版本
Maven 或 Gradle

添加依赖

Maven
在 pom.xml 文件中添加以下依赖:

<dependency><groupId>io.github.avidbyte</groupId><artifactId>wordshield</artifactId><version>1.0.0</version>
</dependency>

Gradle
在 build.gradle 文件中添加以下依赖:

dependencies {implementation 'io.github.avidbyte:wordshield:1.0.0'
}

使用方法

初始化过滤器
添加依赖后,SensitiveWordFilter Bean 会被自动注册。您可以在服务类中直接使用它:

import io.github.avidbyte.wordshield.SensitiveWordFilter;@Slf4j
@Service
public class ContentService {private final SensitiveWordFilter sensitiveWordFilter;public ContentService(SensitiveWordFilter sensitiveWordFilter) {this.sensitiveWordFilter = sensitiveWordFilter;}public String filterContent(String content) {SensitiveWordResult sensitiveWordResult = sensitiveWordFilter.checkAndFilter(content, "*");log.info("文本: {} 是否是敏感词: {}", content, sensitiveWordResult.isContainsSensitiveWord());log.info("文本: {} 敏感词处理结果: {}", content, sensitiveWordResult.getFilteredText());}
}

自定义敏感词列表

默认情况下,库会加载预设的敏感词列表。不过,您也可以通过提供文件路径来自定义敏感词列表:

在 application.yml 配置

sensitive:word:loadDefault: falsesource: filefilePath: /opt/sensitive_word.txt

loadDefault 为 true, wordshield 会先加载预设的敏感词列表, 如果不希望使用预设的敏感词列表, 就将 loadDefault 设置为 false

其他数据来源: database, api, etc. 可以通过这种方式加载

sensitive:word:loadDefault: falsesource: database

当前配置 wordshield 不会加载预设的敏感词, 敏感词库完全是空的, 需要使用者自己调用新增敏感词的方法构造敏感词库
通过这四个方法也可以动态地管理敏感词列表

import io.github.avidbyte.wordshield.SensitiveWordFilter;@Service
public class ContentService {private final SensitiveWordFilter sensitiveWordFilter;public ContentService(SensitiveWordFilter sensitiveWordFilter) {this.sensitiveWordFilter = sensitiveWordFilter;}public String addSensitiveWords(List<String> words) {sensitiveWordFilter.addSensitiveWords(words);}public String addSensitiveWord(String word) {sensitiveWordFilter.addSensitiveWord(word);}public String removeSensitiveWords(List<String> words) {sensitiveWordFilter.removeSensitiveWords(words);}public String removeSensitiveWord(String word) {sensitiveWordFilter.removeSensitiveWord(word);}}

这篇关于WordShield 一款轻量级且灵活的敏感词过滤库的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1129567

相关文章

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

高效+灵活,万博智云全球发布AWS无代理跨云容灾方案!

摘要 近日,万博智云推出了基于AWS的无代理跨云容灾解决方案,并与拉丁美洲,中东,亚洲的合作伙伴面向全球开展了联合发布。这一方案以AWS应用环境为基础,将HyperBDR平台的高效、灵活和成本效益优势与无代理功能相结合,为全球企业带来实现了更便捷、经济的数据保护。 一、全球联合发布 9月2日,万博智云CEO Michael Wong在线上平台发布AWS无代理跨云容灾解决方案的阐述视频,介绍了

pandas数据过滤

Pandas 数据过滤方法 Pandas 提供了多种方法来过滤数据,可以根据不同的条件进行筛选。以下是一些常见的 Pandas 数据过滤方法,结合实例进行讲解,希望能帮你快速理解。 1. 基于条件筛选行 可以使用布尔索引来根据条件过滤行。 import pandas as pd# 创建示例数据data = {'Name': ['Alice', 'Bob', 'Charlie', 'Dav

PR曲线——一个更敏感的性能评估工具

在不均衡数据集的情况下,精确率-召回率(Precision-Recall, PR)曲线是一种非常有用的工具,因为它提供了比传统的ROC曲线更准确的性能评估。以下是PR曲线在不均衡数据情况下的一些作用: 关注少数类:在不均衡数据集中,少数类的样本数量远少于多数类。PR曲线通过关注少数类(通常是正类)的性能来弥补这一点,因为它直接评估模型在识别正类方面的能力。 精确率与召回率的平衡:精确率(Pr

一款支持同一个屏幕界面同时播放多个视频的视频播放软件

GridPlayer 是一款基于 VLC 的免费开源跨平台多视频同步播放工具,支持在一块屏幕上同时播放多个视频。其主要功能包括: 多视频播放:用户可以在一个窗口中同时播放任意数量的视频,数量仅受硬件性能限制。支持多种格式和流媒体:GridPlayer 支持所有由 VLC 支持的视频格式以及流媒体 URL(如 m3u8 链接)。自定义网格布局:用户可以配置播放器的网格布局,以适应不同的观看需求。硬

Java8特性:分组、提取字段、去重、过滤、差集、交集

总结下自己使用过的特性 将对象集合根据某个字段分组 //根据id分组Map<String, List<Bean>> newMap = successCf.stream().collect(Collectors.groupingBy(b -> b.getId().trim())); 获取对象集合里面的某个字段的集合 List<Bean> list = new ArrayList<>

推荐一款强大的OCR软件,请低调使用!

今天给大家分享一款开源的OCR识别软件,可以提升大家的办公效率——Umi-OCR,支持window​和Linux系统。 Umi-OCR支持提取一张图片或者多张图片的信息,只需通过右边的功能页选择相应的功能。 点击左边的“截图OCR”进入页面 点击“截图”按钮选取截图区域,直接在右边的记录中​提取出截图中的信息。 批量OCR功能也一样,点击左边菜单的“批量OCR”菜单

828华为云征文|基于Flexus云服务器X实例的应用场景-拥有一款自己的ssl监控工具

先看这里 写在前面效果图华为云Flexus云服务器X实例介绍特点可选配置购买 连接服务器Uptime-kuma简介开源信息部署准备工作:docker部署命令访问uptime-kuma 基本配置总结 写在前面 作为一个个人开发者,相信你手里肯定也有不少自己的服务,有的服务呢也是https的。 以前ssl各厂都是可以免费申请一年的,我们更换的频率还好,比较小;但是最近,各厂都

【重学 MySQL】十五、过滤数据

【重学 MySQL】十五、过滤数据 基本用法使用`AND`、`OR`和`NOT`使用`IN`操作符使用`BETWEEN`操作符使用`LIKE`操作符使用`IS NULL`和`IS NOT NULL` 在MySQL中,过滤数据主要通过WHERE子句来实现。WHERE子句允许你指定条件来过滤从表中检索出来的行。只有当行满足WHERE子句中的条件时,这些行才会被包含在查询结果中。