本文主要是介绍花椒敏感词系统,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
花椒敏感词系统
背景介绍
直播系统主要是以内容为主,好的内容可以吸引用户来欣赏,也能为公司带来可观的收益,既然有传播的入口,那么必然有负面内容的出现,随着平台用户量不断扩大,内容的监管也是必不可少的一个环节,比如国家监管部门要求拦截词语包括涉政、非法、宗教、暴恐、版权等,以及平台自身需要拦截的词语包括竞品挖人、低俗、广告等垃圾词,那么我们本章就从文本内容的管控角度介绍下花椒敏感词服务的定制和应用。
系统介绍
采用GO语言开发,基于开源sego分词服务进行改造升级,将花椒自维护的敏感词库以秒级别自动加载,自动分词,实现服务内置自动热更新词库,分词器算法为基于词频的最短路径加动态规划,同时提供支持返回词类型、词属性、命中状态、命中词,并为业务提供JSON RPC服务,通过搭建集群化分词检测服务保证服务稳定性,分词检测效率非常高,可弹性扩展。
服务架构设计
特性
基于开源sego升级改造,定制针对花椒场景的使用
新增支持返回词类型、词属性、命中状态、命中词列表(定制)
服务通用化,生成
这篇关于花椒敏感词系统的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!