【Golang】DFA算法过滤敏感词Golang实现

2023-10-07 17:44

本文主要是介绍【Golang】DFA算法过滤敏感词Golang实现,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

什么是DFA算法

DFA全称:Deterministic Finite Automaton,翻译过来就是确定性有限自动机,其特征是,有一个有限状态集合和一些从一个状态通向另一个状态的边,每条边上标记有一个符号,其中一个状态是初态,某些状态是终态,但是确定性有穷自动机不会从同一状态触发的两个边标志由相同的符号。
通俗的讲DFA算法就是把你要匹配的做成一颗字典树,然后对你输入的内容进行匹配的过程

如何构建这颗字典树呢

这是一颗简单字典树的,我们的第一步就是构建出一个这样的包含敏感词的树在这里插入图片描述
下面我说一下构建过程
每个节点的结构

// 定义一个Node结构体,代表DFA的一个节点。
type Node struct {End  bool   // End字段表示是否为一个单词的结束。Next map[rune]*Node   // Next字段是一个映射,用于存储此节点的所有子节点。
}
// 定义一个DFAMatcher结构体,代表一个完整的DFA。
type DFAMatcher struct {replaceChar rune   // replaceChar字段是替换敏感词的字符。root        *Node   // root字段是DFA的根节点。
}

我们要先创捷出一个root节点,在root节点中是不存放数据的

//创建出一个DFA树的根节点实例
func NewDFAMather() *DFAMatcher {return &DFAMatcher{root: &Node{End: false,},}
}

在确定完节点的结构后,我们需要跟据敏感词来构建这颗字典树

// Build方法用于构建DFA,它会将提供的所有单词添加到DFA中。
func (d *DFAMatcher) Build(words []string) {for _, item := range words { // 遍历提供的所有单词。d.root.AddWord(item) // 将每一个单词添加到DFA的根节点。}
}// AddWord方法用于向当前节点添加一个单词。
// 这个方法会遍历单词的每一个字符,并为每一个字符添加一个子节点。
func (n *Node) AddWord(word string) {node := n                     // 从当前节点开始。chars := []rune(word)         // 将字符串转化为rune类型的切片,以便处理Unicode字符。for index, _ := range chars { // 遍历单词的每一个字符。node = node.AddChild(chars[index]) // 递归地为每一个字符添加子节点。}node.End = true // 设置最后一个节点为单词的结束。
}// AddChild方法向当前节点添加一个子节点。
// 如果子节点已经存在,它将不会被重复添加。
func (n *Node) AddChild(c rune) *Node {if n.Next == nil { // 如果Next字段为nil,则初始化一个映射。n.Next = make(map[rune]*Node)}//检查字符c是否已经是当前节点的子节点。if next, ok := n.Next[c]; ok { // 如果ok为true,则字符c已经是当前节点的子节点,直接返回该子节点。return next} else { // 否则,创建一个新的节点,并将其设置为当前节点的子节点。n.Next[c] = &Node{End:  false,Next: nil,}return n.Next[c] // 返回新创建的子节点。}
}

根据上面的代码就可一构建出一颗包含你传入的敏感词的树,在这颗树种根节点不存放数据

过滤关键词

下面就是跟据你传入的内容来过滤敏感词了,你可以把敏感词替换成其他字符,也可以统计敏感词的个数,这就看你自己需要什么了
下面是代码实现

// Match方法用于在文本中查找并替换敏感词。
// 它返回找到的敏感词列表和替换后的文本。
func (d *DFAMatcher) Match(text string) (sensitiveWords []string, replaceText string) {if d.root == nil { // 如果DFA是空的,直接返回原始文本。return nil, text}textChars := []rune(text)                     // 将文本转化为rune类型的切片,以便处理Unicode字符。textCharsCopy := make([]rune, len(textChars)) // 创建一个文本字符的副本,用于替换敏感词。copy(textCharsCopy, textChars)                // 复制原始文本字符到副本。length := len(textChars)                      // 获取文本的长度。for i := 0; i < length; i++ {                 // 遍历文本的每一个字符。// 在DFA树中查找当前字符对应的子节点temp := d.root.FindChild(textChars[i])if temp == nil {continue // 如果不存在匹配,继续检查下一个字符}j := i + 1// 遍历文本中的字符,查找匹配的敏感词,第一个匹配上了,就进行后面的向下匹配for ; j < length && temp != nil; j++ {if temp.End {// 如果找到一个敏感词,将其添加到结果列表中,并在副本中替换为指定字符sensitiveWords = append(sensitiveWords, string(textChars[i:j]))replaceRune(textCharsCopy, '*', i, j) //替换敏感词}temp = temp.FindChild(textChars[j])}// 处理文本末尾的情况,如果末尾是一个完整的敏感词,添加到结果列表中,并在副本中替换为指定字符if j == length && temp != nil && temp.End {sensitiveWords = append(sensitiveWords, string(textChars[i:length]))replaceRune(textCharsCopy, '*', i, length)}}return sensitiveWords, string(textCharsCopy) // 返回匹配到的敏感词列表和替换后的文本}// FindChild方法用于在当前节点的子节点中查找一个特定的子节点。
func (n *Node) FindChild(c rune) *Node {if n.Next == nil { // 如果Next字段为nil,则直接返回nil。return nil}//检查字符c是否是当前节点的子节点。if _, ok := n.Next[c]; ok { // 如果ok为true,则字符c是当前节点的子节点,返回该子节点。return n.Next[c]}return nil // 否则,返回nil。
}//替换掉文章中出现的关键词
func replaceRune(chars []rune, replaceChar rune, begin int, end int) {for i := begin; i < end; i++ {chars[i] = replaceChar}
}

以上就是使用Golang代码实现了一个简单的DFA算法过滤敏感词的一个算法,这个算法相对于其他的性能更好,匹配更快。

这篇关于【Golang】DFA算法过滤敏感词Golang实现的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/159381

相关文章

SpringBoot+RustFS 实现文件切片极速上传的实例代码

《SpringBoot+RustFS实现文件切片极速上传的实例代码》本文介绍利用SpringBoot和RustFS构建高性能文件切片上传系统,实现大文件秒传、断点续传和分片上传等功能,具有一定的参考... 目录一、为什么选择 RustFS + SpringBoot?二、环境准备与部署2.1 安装 RustF

Nginx部署HTTP/3的实现步骤

《Nginx部署HTTP/3的实现步骤》本文介绍了在Nginx中部署HTTP/3的详细步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录前提条件第一步:安装必要的依赖库第二步:获取并构建 BoringSSL第三步:获取 Nginx

MyBatis Plus实现时间字段自动填充的完整方案

《MyBatisPlus实现时间字段自动填充的完整方案》在日常开发中,我们经常需要记录数据的创建时间和更新时间,传统的做法是在每次插入或更新操作时手动设置这些时间字段,这种方式不仅繁琐,还容易遗漏,... 目录前言解决目标技术栈实现步骤1. 实体类注解配置2. 创建元数据处理器3. 服务层代码优化填充机制详

Python实现Excel批量样式修改器(附完整代码)

《Python实现Excel批量样式修改器(附完整代码)》这篇文章主要为大家详细介绍了如何使用Python实现一个Excel批量样式修改器,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一... 目录前言功能特性核心功能界面特性系统要求安装说明使用指南基本操作流程高级功能技术实现核心技术栈关键函

Java实现字节字符转bcd编码

《Java实现字节字符转bcd编码》BCD是一种将十进制数字编码为二进制的表示方式,常用于数字显示和存储,本文将介绍如何在Java中实现字节字符转BCD码的过程,需要的小伙伴可以了解下... 目录前言BCD码是什么Java实现字节转bcd编码方法补充总结前言BCD码(Binary-Coded Decima

SpringBoot全局域名替换的实现

《SpringBoot全局域名替换的实现》本文主要介绍了SpringBoot全局域名替换的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录 项目结构⚙️ 配置文件application.yml️ 配置类AppProperties.Ja

Python实现批量CSV转Excel的高性能处理方案

《Python实现批量CSV转Excel的高性能处理方案》在日常办公中,我们经常需要将CSV格式的数据转换为Excel文件,本文将介绍一个基于Python的高性能解决方案,感兴趣的小伙伴可以跟随小编一... 目录一、场景需求二、技术方案三、核心代码四、批量处理方案五、性能优化六、使用示例完整代码七、小结一、

Java实现将HTML文件与字符串转换为图片

《Java实现将HTML文件与字符串转换为图片》在Java开发中,我们经常会遇到将HTML内容转换为图片的需求,本文小编就来和大家详细讲讲如何使用FreeSpire.DocforJava库来实现这一功... 目录前言核心实现:html 转图片完整代码场景 1:转换本地 HTML 文件为图片场景 2:转换 H

C#使用Spire.Doc for .NET实现HTML转Word的高效方案

《C#使用Spire.Docfor.NET实现HTML转Word的高效方案》在Web开发中,HTML内容的生成与处理是高频需求,然而,当用户需要将HTML页面或动态生成的HTML字符串转换为Wor... 目录引言一、html转Word的典型场景与挑战二、用 Spire.Doc 实现 HTML 转 Word1

C#实现一键批量合并PDF文档

《C#实现一键批量合并PDF文档》这篇文章主要为大家详细介绍了如何使用C#实现一键批量合并PDF文档功能,文中的示例代码简洁易懂,感兴趣的小伙伴可以跟随小编一起学习一下... 目录前言效果展示功能实现1、添加文件2、文件分组(书签)3、定义页码范围4、自定义显示5、定义页面尺寸6、PDF批量合并7、其他方法