unity c#非法字符(脏词)检测

2024-01-15 11:08

本文主要是介绍unity c#非法字符(脏词)检测,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

项目中非法字符检测是必须的,聊天系统不屏蔽各种不文明用语

先说说我的原理吧

1.读取非法字符表,把相同的首字符归类到字典,类似新华字典那样

2.然后把输入的字符串,一个个字符找对应的首字符字典,遍历首字符字典,在当前字符后面截取对应的字符长度得到的字符串然后比较,如果字符串相同则认为有非法字符

下面是测试结果

下面为完整代码,有注释应该比较容易看懂


using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using UnityEngine;/// <summary>
/// 非法关键词过滤(自动忽略汉字数字字母间的其他字符)
/// </summary>
public class FilterWord
{public FilterWord(){TextAsset asset = Resources.Load("dirtywords") as TextAsset;m_AllFilterWord = asset.text;}private string m_AllFilterWord = string.Empty;/// <summary>/// 词库路径/// </summary>public string AllFilterWord{get { return m_AllFilterWord; }set { m_AllFilterWord = value; }}/// <summary>/// 内存词典/// </summary>private WordGroup[] MEMORYLEXICON = new WordGroup[(int)char.MaxValue];private string sourctText = string.Empty;private bool m_IsInitalize = false;/// <summary>/// 检测源/// </summary>public string SourceText{get { return sourctText; }set { sourctText = value; }}/// <summary>/// 检测源游标/// </summary>int cursor = 0;/// <summary>/// 匹配成功后偏移量/// </summary>int wordlenght = 0;/// <summary>/// 检测词游标/// </summary>int nextCursor = 0;private List<string> illegalWords = new List<string>();/// <summary>/// 检测到的非法词集/// </summary>public List<string> IllegalWords{get { return illegalWords; }}/// <summary>/// 判断是否是中文/// </summary>/// <param name="character"></param>/// <returns></returns>private bool isCHS(char character){//  中文表意字符的范围 4E00-9FA5int charVal = (int)character;return (charVal >= 0x4e00 && charVal <= 0x9fa5);}/// <summary>/// 判断是否是数字/// </summary>/// <param name="character"></param>/// <returns></returns>private bool isNum(char character){int charVal = (int)character;return (charVal >= 48 && charVal <= 57);}/// <summary>/// 判断是否是字母/// </summary>/// <param name="character"></param>/// <returns></returns>private bool isAlphabet(char character){int charVal = (int)character;return ((charVal >= 97 && charVal <= 122) || (charVal >= 65 && charVal <= 90));}/// <summary>/// 转半角小写的函数(DBC case)/// </summary>/// <param name="input">任意字符串</param>/// <returns>半角字符串</returns>///<remarks>///全角空格为12288,半角空格为32///其他字符半角(33-126)与全角(65281-65374)的对应关系是:均相差65248///</remarks>private string ToDBC(string input){char[] c = input.ToCharArray();for (int i = 0; i < c.Length; i++){if (c[i] == 12288){c[i] = (char)32;continue;}if (c[i] > 65280 && c[i] < 65375)c[i] = (char)(c[i] - 65248);}return new string(c).ToLower();}/// <summary>/// 加载内存词库/// </summary>public void LoadDictionary(){if (m_IsInitalize){return;}m_IsInitalize = true;List<string> wordList = new List<string>();Array.Clear(MEMORYLEXICON, 0, MEMORYLEXICON.Length);string[] words = AllFilterWord.Split('\n');foreach (string word in words){string str = word.Replace("\r", "");string key = this.ToDBC(str);wordList.Add(key);}Comparison<string> cmp = delegate (string key1, string key2){return key1.CompareTo(key2);};wordList.Sort(cmp);for (int i = wordList.Count - 1; i > 0; i--){if (wordList[i].ToString() == wordList[i - 1].ToString()){wordList.RemoveAt(i);}}foreach (var word in wordList){if (string.IsNullOrEmpty(word)){continue;}WordGroup group = MEMORYLEXICON[word[0]];if (group == null){group = new WordGroup();MEMORYLEXICON[(int)word[0]] = group;}group.Add(word.Substring(1));}}/// <summary>/// 检测/// </summary>/// <param name="blackWord"></param>/// <returns></returns>private bool Check(string blackWord){wordlenght = 0;//检测源下一位游标nextCursor = cursor + 1;bool found = false;string tempStr = ToDBC(sourctText);//遍历词的每一位做匹配for (int i = 0; i < blackWord.Length; i++){//特殊字符偏移游标int offset = 0;if (nextCursor >= tempStr.Length){break;}else{if (i >= blackWord.Length|| nextCursor + offset >= tempStr.Length){found = false;break;}if ((int)blackWord[i] == (int)tempStr[nextCursor + offset]){if (isAlphabet(tempStr[nextCursor + offset])){if(tempStr.Length < blackWord.Length){found = false;break;}if (i >= blackWord.Length - 1){int temp = nextCursor + offset + 1;if(tempStr.Length > temp){if(isAlphabet(tempStr[temp])){found = false;break;}else{found = true;}}else{found = true;}}}else{if (i >= blackWord.Length - 1){found = true;}}}else{found = false;break;}}nextCursor = nextCursor + 1 + offset;wordlenght++;}return found;}/// <summary>/// 查找并替换/// </summary>/// <param name="replaceChar"></param>public string Filter(char replaceChar){cursor = 0;nextCursor = 0;LoadDictionary();if (sourctText != string.Empty){//sourctText = sourctText.Replace("\n", "");//sourctText = sourctText.Trim();char[] tempString = sourctText.ToCharArray();for (int i = 0; i < SourceText.Length; i++){//查询以该字为首字符的词组WordGroup group = MEMORYLEXICON[(int)ToDBC(SourceText)[i]];if (group != null){for (int z = 0; z < group.Count(); z++){string word = group.GetWord(z);if (word.Length == 0 || Check(word)){string blackword = string.Empty;for (int pos = 0; pos < wordlenght + 1; pos++){blackword += tempString[pos + cursor].ToString();tempString[pos + cursor] = replaceChar;}illegalWords.Add(blackword);cursor = cursor + wordlenght;i = i + wordlenght;}}}cursor++;}return new string(tempString);}else{return string.Empty;}}
}/// <summary>
/// 具有相同首字符的词组集合
/// </summary>
class WordGroup
{/// <summary>/// 集合/// </summary>private List<string> groupList;public WordGroup(){groupList = new List<string>();}/// <summary>/// 添加词/// </summary>/// <param name="word"></param>public void Add(string word){groupList.Add(word);}/// <summary>/// 获取总数/// </summary>/// <returns></returns>public int Count(){return groupList.Count;}/// <summary>/// 根据下标获取词/// </summary>/// <param name="index"></param>/// <returns></returns>public string GetWord(int index){return groupList[index];}
}

下面是抽出一个统一方法来调用检测

主要两个方法

1.检测是否有非法字符,返回bool

2.把非法字符转成*号,返回string

using System.Collections;
using System.Collections.Generic;
using UnityEngine;public class SystemUtil
{/// <summary>/// 判断是否非法字符/// </summary>/// <param name="str"></param>/// <returns></returns>public static bool IsInvaild(string str){string source = Filter(str);return str != source;}/// <summary>/// 把非法字符变成*号/// </summary>/// <param name="str"></param>/// <returns></returns>public static string Filter(string str){filterWord.SourceText = str;return filterWord.Filter('*');}public static FilterWord filterWord{get{if (null == m_FilterWord){m_FilterWord = new FilterWord();}return m_FilterWord;}}private static FilterWord m_FilterWord;
}

下面是工程下载地址

https://gitee.com/PieKen/FilterWord

这篇关于unity c#非法字符(脏词)检测的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/608678

相关文章

使用C#代码在PDF文档中添加、删除和替换图片

《使用C#代码在PDF文档中添加、删除和替换图片》在当今数字化文档处理场景中,动态操作PDF文档中的图像已成为企业级应用开发的核心需求之一,本文将介绍如何在.NET平台使用C#代码在PDF文档中添加、... 目录引言用C#添加图片到PDF文档用C#删除PDF文档中的图片用C#替换PDF文档中的图片引言在当

详解C#如何提取PDF文档中的图片

《详解C#如何提取PDF文档中的图片》提取图片可以将这些图像资源进行单独保存,方便后续在不同的项目中使用,下面我们就来看看如何使用C#通过代码从PDF文档中提取图片吧... 当 PDF 文件中包含有价值的图片,如艺术画作、设计素材、报告图表等,提取图片可以将这些图像资源进行单独保存,方便后续在不同的项目中使

C#使用SQLite进行大数据量高效处理的代码示例

《C#使用SQLite进行大数据量高效处理的代码示例》在软件开发中,高效处理大数据量是一个常见且具有挑战性的任务,SQLite因其零配置、嵌入式、跨平台的特性,成为许多开发者的首选数据库,本文将深入探... 目录前言准备工作数据实体核心技术批量插入:从乌龟到猎豹的蜕变分页查询:加载百万数据异步处理:拒绝界面

C#数据结构之字符串(string)详解

《C#数据结构之字符串(string)详解》:本文主要介绍C#数据结构之字符串(string),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录转义字符序列字符串的创建字符串的声明null字符串与空字符串重复单字符字符串的构造字符串的属性和常用方法属性常用方法总结摘

C#如何动态创建Label,及动态label事件

《C#如何动态创建Label,及动态label事件》:本文主要介绍C#如何动态创建Label,及动态label事件,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录C#如何动态创建Label,及动态label事件第一点:switch中的生成我们的label事件接着,

C# WinForms存储过程操作数据库的实例讲解

《C#WinForms存储过程操作数据库的实例讲解》:本文主要介绍C#WinForms存储过程操作数据库的实例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、存储过程基础二、C# 调用流程1. 数据库连接配置2. 执行存储过程(增删改)3. 查询数据三、事务处

C#基础之委托详解(Delegate)

《C#基础之委托详解(Delegate)》:本文主要介绍C#基础之委托(Delegate),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1. 委托定义2. 委托实例化3. 多播委托(Multicast Delegates)4. 委托的用途事件处理回调函数LINQ

在C#中调用Python代码的两种实现方式

《在C#中调用Python代码的两种实现方式》:本文主要介绍在C#中调用Python代码的两种实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录C#调用python代码的方式1. 使用 Python.NET2. 使用外部进程调用 Python 脚本总结C#调

C#中的 StreamReader/StreamWriter 使用示例详解

《C#中的StreamReader/StreamWriter使用示例详解》在C#开发中,StreamReader和StreamWriter是处理文本文件的核心类,属于System.IO命名空间,本... 目录前言一、什么是 StreamReader 和 StreamWriter?1. 定义2. 特点3. 用

C语言字符函数和字符串函数示例详解

《C语言字符函数和字符串函数示例详解》本文详细介绍了C语言中字符分类函数、字符转换函数及字符串操作函数的使用方法,并通过示例代码展示了如何实现这些功能,通过这些内容,读者可以深入理解并掌握C语言中的字... 目录一、字符分类函数二、字符转换函数三、strlen的使用和模拟实现3.1strlen函数3.2st