【Golang】DFA算法过滤敏感词Golang实现

2023-10-07 17:44

本文主要是介绍【Golang】DFA算法过滤敏感词Golang实现,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

什么是DFA算法

DFA全称:Deterministic Finite Automaton,翻译过来就是确定性有限自动机,其特征是,有一个有限状态集合和一些从一个状态通向另一个状态的边,每条边上标记有一个符号,其中一个状态是初态,某些状态是终态,但是确定性有穷自动机不会从同一状态触发的两个边标志由相同的符号。
通俗的讲DFA算法就是把你要匹配的做成一颗字典树,然后对你输入的内容进行匹配的过程

如何构建这颗字典树呢

这是一颗简单字典树的,我们的第一步就是构建出一个这样的包含敏感词的树在这里插入图片描述
下面我说一下构建过程
每个节点的结构

// 定义一个Node结构体,代表DFA的一个节点。
type Node struct {End  bool   // End字段表示是否为一个单词的结束。Next map[rune]*Node   // Next字段是一个映射,用于存储此节点的所有子节点。
}
// 定义一个DFAMatcher结构体,代表一个完整的DFA。
type DFAMatcher struct {replaceChar rune   // replaceChar字段是替换敏感词的字符。root        *Node   // root字段是DFA的根节点。
}

我们要先创捷出一个root节点,在root节点中是不存放数据的

//创建出一个DFA树的根节点实例
func NewDFAMather() *DFAMatcher {return &DFAMatcher{root: &Node{End: false,},}
}

在确定完节点的结构后,我们需要跟据敏感词来构建这颗字典树

// Build方法用于构建DFA,它会将提供的所有单词添加到DFA中。
func (d *DFAMatcher) Build(words []string) {for _, item := range words { // 遍历提供的所有单词。d.root.AddWord(item) // 将每一个单词添加到DFA的根节点。}
}// AddWord方法用于向当前节点添加一个单词。
// 这个方法会遍历单词的每一个字符,并为每一个字符添加一个子节点。
func (n *Node) AddWord(word string) {node := n                     // 从当前节点开始。chars := []rune(word)         // 将字符串转化为rune类型的切片,以便处理Unicode字符。for index, _ := range chars { // 遍历单词的每一个字符。node = node.AddChild(chars[index]) // 递归地为每一个字符添加子节点。}node.End = true // 设置最后一个节点为单词的结束。
}// AddChild方法向当前节点添加一个子节点。
// 如果子节点已经存在,它将不会被重复添加。
func (n *Node) AddChild(c rune) *Node {if n.Next == nil { // 如果Next字段为nil,则初始化一个映射。n.Next = make(map[rune]*Node)}//检查字符c是否已经是当前节点的子节点。if next, ok := n.Next[c]; ok { // 如果ok为true,则字符c已经是当前节点的子节点,直接返回该子节点。return next} else { // 否则,创建一个新的节点,并将其设置为当前节点的子节点。n.Next[c] = &Node{End:  false,Next: nil,}return n.Next[c] // 返回新创建的子节点。}
}

根据上面的代码就可一构建出一颗包含你传入的敏感词的树,在这颗树种根节点不存放数据

过滤关键词

下面就是跟据你传入的内容来过滤敏感词了,你可以把敏感词替换成其他字符,也可以统计敏感词的个数,这就看你自己需要什么了
下面是代码实现

// Match方法用于在文本中查找并替换敏感词。
// 它返回找到的敏感词列表和替换后的文本。
func (d *DFAMatcher) Match(text string) (sensitiveWords []string, replaceText string) {if d.root == nil { // 如果DFA是空的,直接返回原始文本。return nil, text}textChars := []rune(text)                     // 将文本转化为rune类型的切片,以便处理Unicode字符。textCharsCopy := make([]rune, len(textChars)) // 创建一个文本字符的副本,用于替换敏感词。copy(textCharsCopy, textChars)                // 复制原始文本字符到副本。length := len(textChars)                      // 获取文本的长度。for i := 0; i < length; i++ {                 // 遍历文本的每一个字符。// 在DFA树中查找当前字符对应的子节点temp := d.root.FindChild(textChars[i])if temp == nil {continue // 如果不存在匹配,继续检查下一个字符}j := i + 1// 遍历文本中的字符,查找匹配的敏感词,第一个匹配上了,就进行后面的向下匹配for ; j < length && temp != nil; j++ {if temp.End {// 如果找到一个敏感词,将其添加到结果列表中,并在副本中替换为指定字符sensitiveWords = append(sensitiveWords, string(textChars[i:j]))replaceRune(textCharsCopy, '*', i, j) //替换敏感词}temp = temp.FindChild(textChars[j])}// 处理文本末尾的情况,如果末尾是一个完整的敏感词,添加到结果列表中,并在副本中替换为指定字符if j == length && temp != nil && temp.End {sensitiveWords = append(sensitiveWords, string(textChars[i:length]))replaceRune(textCharsCopy, '*', i, length)}}return sensitiveWords, string(textCharsCopy) // 返回匹配到的敏感词列表和替换后的文本}// FindChild方法用于在当前节点的子节点中查找一个特定的子节点。
func (n *Node) FindChild(c rune) *Node {if n.Next == nil { // 如果Next字段为nil,则直接返回nil。return nil}//检查字符c是否是当前节点的子节点。if _, ok := n.Next[c]; ok { // 如果ok为true,则字符c是当前节点的子节点,返回该子节点。return n.Next[c]}return nil // 否则,返回nil。
}//替换掉文章中出现的关键词
func replaceRune(chars []rune, replaceChar rune, begin int, end int) {for i := begin; i < end; i++ {chars[i] = replaceChar}
}

以上就是使用Golang代码实现了一个简单的DFA算法过滤敏感词的一个算法,这个算法相对于其他的性能更好,匹配更快。

这篇关于【Golang】DFA算法过滤敏感词Golang实现的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/159381

相关文章

使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)

《使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)》在现代软件开发中,处理JSON数据是一项非常常见的任务,无论是从API接口获取数据,还是将数据存储为JSON格式,解析... 目录1. 背景介绍1.1 jsON简介1.2 实际案例2. 准备工作2.1 环境搭建2.1.1 添加

Java实现任务管理器性能网络监控数据的方法详解

《Java实现任务管理器性能网络监控数据的方法详解》在现代操作系统中,任务管理器是一个非常重要的工具,用于监控和管理计算机的运行状态,包括CPU使用率、内存占用等,对于开发者和系统管理员来说,了解这些... 目录引言一、背景知识二、准备工作1. Maven依赖2. Gradle依赖三、代码实现四、代码详解五

java如何分布式锁实现和选型

《java如何分布式锁实现和选型》文章介绍了分布式锁的重要性以及在分布式系统中常见的问题和需求,它详细阐述了如何使用分布式锁来确保数据的一致性和系统的高可用性,文章还提供了基于数据库、Redis和Zo... 目录引言:分布式锁的重要性与分布式系统中的常见问题和需求分布式锁的重要性分布式系统中常见的问题和需求

SpringBoot基于MyBatis-Plus实现Lambda Query查询的示例代码

《SpringBoot基于MyBatis-Plus实现LambdaQuery查询的示例代码》MyBatis-Plus是MyBatis的增强工具,简化了数据库操作,并提高了开发效率,它提供了多种查询方... 目录引言基础环境配置依赖配置(Maven)application.yml 配置表结构设计demo_st

python使用watchdog实现文件资源监控

《python使用watchdog实现文件资源监控》watchdog支持跨平台文件资源监控,可以检测指定文件夹下文件及文件夹变动,下面我们来看看Python如何使用watchdog实现文件资源监控吧... python文件监控库watchdogs简介随着Python在各种应用领域中的广泛使用,其生态环境也

el-select下拉选择缓存的实现

《el-select下拉选择缓存的实现》本文主要介绍了在使用el-select实现下拉选择缓存时遇到的问题及解决方案,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录项目场景:问题描述解决方案:项目场景:从左侧列表中选取字段填入右侧下拉多选框,用户可以对右侧

Golang使用minio替代文件系统的实战教程

《Golang使用minio替代文件系统的实战教程》本文讨论项目开发中直接文件系统的限制或不足,接着介绍Minio对象存储的优势,同时给出Golang的实际示例代码,包括初始化客户端、读取minio对... 目录文件系统 vs Minio文件系统不足:对象存储:miniogolang连接Minio配置Min

Python pyinstaller实现图形化打包工具

《Pythonpyinstaller实现图形化打包工具》:本文主要介绍一个使用PythonPYQT5制作的关于pyinstaller打包工具,代替传统的cmd黑窗口模式打包页面,实现更快捷方便的... 目录1.简介2.运行效果3.相关源码1.简介一个使用python PYQT5制作的关于pyinstall

使用Python实现大文件切片上传及断点续传的方法

《使用Python实现大文件切片上传及断点续传的方法》本文介绍了使用Python实现大文件切片上传及断点续传的方法,包括功能模块划分(获取上传文件接口状态、临时文件夹状态信息、切片上传、切片合并)、整... 目录概要整体架构流程技术细节获取上传文件状态接口获取临时文件夹状态信息接口切片上传功能文件合并功能小

Golang使用etcd构建分布式锁的示例分享

《Golang使用etcd构建分布式锁的示例分享》在本教程中,我们将学习如何使用Go和etcd构建分布式锁系统,分布式锁系统对于管理对分布式系统中共享资源的并发访问至关重要,它有助于维护一致性,防止竞... 目录引言环境准备新建Go项目实现加锁和解锁功能测试分布式锁重构实现失败重试总结引言我们将使用Go作