文本反垃圾在花椒直播中的应用概述

2023-12-08 20:10

本文主要是介绍文本反垃圾在花椒直播中的应用概述,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

奇技指南

本文主要以文本为对象,简要地介绍花椒平台在文本反垃圾方面所采用的文本垃圾拦截技术

本文转载自花椒技术公众号

背景

随着花椒用户和主播用户的数量不断增加,一些非法用户(垃圾虫)利用花椒平台数据流量大、信息传播范围广的优势,通过各种多媒体手段(文本、图片、语音、短视频等)在用户个人资料信息(昵称,签名,头像等)及直播间聊天等场景散播垃圾信息,这些信息严重影响了用户的观看体验,甚至会导致用户流失、活跃度下降,此外一些情节严重的违法违规内容会给平台带来运营风险和负面的社会影响。

问题分析

本文主要以文本为对象,简要地介绍花椒平台在文本反垃圾方面所采用的文本垃圾拦截技术。目前平台上所接触到的文本垃圾信息基本上可以概括为以下几个类别:

  1. 垃圾广告:各类商品广告、诈骗广告等

  2. 色情内容:色情词汇、色情服务及低俗信息等

  3. 暴恐、政治敏感词: 暴恐涉政、违禁品等

  4. 竟品信息及其他信息等

对于平台初期数据量较少、垃圾信息形式单一的情况,采用人工审核的方式基本可以解决问题。但是随着平台业务的拓宽与发展,业务量迅速增加,仅依靠人工审核方式无法应对,这时需要借助一些规则策略和算法模型辅助人工审核,以减少人工审核工作量,提高审核效率。

简单的垃圾信息,可以通过设置规则进行关键词过滤和屏蔽,正则表达则可以发挥很大作用。但是发布者为了逃避拦截,通常都会对垃圾信息进行改造和伪装,比如拼音替换,同义词替换,象形字替换,嵌入表情字符,用表情代替字符,甚至是将文字顺序打乱。对于复杂的信息,其表达形式广泛、没有规律,仅仅通过规则过滤达不到效果,可借助精准的算法模型进行检测。

垃圾信息拦截是一个常见的文本二分类任务,是自然语言处理领域的一个基本任务,目的是推断出给定的文本的标签。二分类问题常见的评价指标有准确率(accuracy),精准率(precision),召回率(recall),F1-score等。

文本分类算法介绍

传统文本分类方法

一般来讲传统机器学习文本分类任务过程包括文本预处理、特征提取、文本表示、训练分类器和分类性能评估。其中构建特征工程和分类建模方法是文本分类任务中最重要的两个环节。

文本的预处理包括文本分词、去除停用词(包括标点、数字和一些无意义的词)、词义消歧、统计等处理。中文与英文相比,在中文文本预处理过程中,首先要进行分词处理,而英文文本单词与单词之间通过空格即可分割,无需进行分词处理。

特征提取和文本表示目的就是将文本转化为计算机可以理解的向量形式。词袋模型(Bag of Words)是用于文本表示的最简单的方法, BoW把文本转换为文档中单词出现次数的矩阵,只关注文档中是否出现给定的单词和单词出现频率,而舍弃文本的结构、单词出现的顺序和位置。词频-逆向文件频率(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,主要衡量一个文档中词语在语料库中的重要程度。Word2vec采用一系列代表文档的词语来训练word2vec权重矩阵,将每个词语映射到一个固定大小的向量。

分类器用的比较多的是LR,SVM,MLP,GBDT等,当然还有其他一些分类算法,这里不多赘述。

基于CNN的文本分类方法

随着互联网的普及,一些用户为求彰显个性,开始大量使用同音字、音近字、特殊符号等异形文字(火星文)。由于这种文字与日常使用的文字相比有明显的不同并且文法也相当奇异,目前平台上遇到的难以识别样本大多是数字、QQ、微信的变种、多是象形字符,不含语义、分词模型对这些符号无法处理而且文本都很简短。

Badcase样本示例

传统文本分类方法所存在的问题

  1. 这些文字如果使用常规的分词方法会导致分词失败

  2. 即使能成功分词,也很难查找到大规模语料库对词语进行向量表示

  3. 过滤异种符号和文字,导致抓不住火星文特征

因此需要一种不借助分词的模型,以单个字词为原子进行词向量表示,并且可以挖掘学习词与词之间的语序及语义信息。

因此需要一种不借助分词的模型,以单个字词为原子进行词向量表示,并且可以挖掘学习词与词之间的语序及语义信息。

TextCNN 原理

CNN(Convolutional Neural Network)卷积神经网络在图像处理方面应用很多,TextCNN模型创新性的将CNN结构应用在了NLP领域,为文本分类提供了新的思路,TextCNN解决了传统方法分词处理和词向量表示两个关键问题,其贡献主要有以下几点: 

  1. 避免分词,以字符为单位的文本向量表示

  2. CNN能捕捉局部区域的词序及语义信息,所表达的特征更加丰富

  3. 采用不同尺寸的卷积核,可以提取到 n-gram 的特征

  4. 卷积结构运算速度快,模型响应时长控制在 50ms 以下

模型结构

TextCNN 模型采用交叉熵损失函数,即将文本处理建模为一个二分类问题。该模型先将文本进行词嵌入(Embedding)获得词向量,然后采用不同尺寸卷积核进行卷积运算提取特征,接着进行最大池化(Max pooling)得到显著特征,最后接一个概率输出层(Softmax)进行文本分类。

卷积部分

对于一维的文本数据,经过词向量化操作后可以得到类似于图像的二维向量。假设输入的每个词的向量维度为k,即词向量空间维度为k,则包含n个单词的句子组成一个 n×k 的二维矩阵,假设卷积核为h×k,h则是卷积滑动窗口的大小,卷积特征

注意到卷积核的宽度k与词向量的维度一致,是因为输入的每一行向量代表一个词,即在抽取特征的过程中,将词作为文本的最小粒度

例如有一个样本 T={"我","爱","花","椒","直","播"},样本输入长度为N= 6,词向量空间维度为 k=5,假设滑动窗口尺寸h=4,则卷积核尺寸为4×5。

输入数据

卷积核

假设滑动窗口移动步长为1,上述输入数据经过卷积运算后将得到如下长度为n-h+1=3的向量输出结果

同理,假设采用2,3,4三种尺寸卷积核,每种尺寸对应有m个卷积核,这样经过卷积运算后,每个尺寸的卷积核对应有的卷积特征。

池化层

最大池化即对领域内特征点取最大值,通常情况下max-pooling能减小卷积层参数误差造成估计均值的偏移,更多的保留显著特征信息,最大池化的定义及示例如下:

对于上述卷积操作得到的3m个(n−h+1)×1的卷积特征采用尺寸为(n−h+1)×1的最大池化(max_pooling)操作得到3个m×1维的特征,最后这些特征进行拼接,得到3m×1维的向量。当用CNN提取出特征向量后,就可以将其输入到概率输出层(softmax)进行分类,其中softmax函数定义如下:

以下是TextCNN模型代码实现:

#coding:utf-8import tensorflow as tfimport numpy as np

class TextCNN(object): def __init__(self, sequence_length, num_classes, vocab_size, embedding_size, filter_sizes, num_filters, l2_reg_lambda=0.0): self.input_x = tf.placeholder(tf.int32, [None, sequence_length], name="input_x") self.input_y = tf.placeholder(tf.float32, [None, num_classes], name="input_y") self.dropout_keep_prob = tf.placeholder(tf.float32, name="dropout_keep_prob") l2_loss = tf.constant(0.0)
#Embedding with tf.device('/cpu:0'), tf.name_scope("embedding"): self.W = tf.get_variable('lookup_table', dtype=tf.float32, shape=[vocab_size, embedding_size], initializer=tf.random_uniform_initializer()) self.W = tf.concat((tf.zeros(shape=[1, embedding_size]), self.W[1:, :]), 0) self.embedded_chars = tf.nn.embedding_lookup(self.W, self.input_x) self.embedded_chars_expanded = tf.expand_dims(self.embedded_chars, -1)
#Convolution pooled_outputs = []
for i, filter_size in enumerate(filter_sizes): with tf.name_scope("conv-maxpool-%s" % filter_size): filter_shape = [filter_size, embedding_size, 1, num_filters] W = tf.Variable(tf.truncated_normal(filter_shape, stddev=0.1), name="W") b = tf.Variable(tf.constant(0.1,shape=[num_filters]), name="b") conv = tf.nn.conv2d(self.embedded_chars_expanded,W,strides=[1, 1, 1, 1], padding="VALID",name="conv") h = tf.nn.relu(tf.nn.bias_add(conv, b), name="relu") pooled = tf.nn.max_pool(h,ksize=[1, sequence_length - filter_size + 1, 1, 1], strides=[1, 1, 1, 1],padding='VALID',name="pool") pooled_outputs.append(pooled)
num_filters_total = num_filters * len(filter_sizes) self.h_pool = tf.concat(pooled_outputs, 3) self.h_pool_flat = tf.reshape(self.h_pool, [-1, num_filters_total])
with tf.name_scope("dropout"): self.h_drop = tf.nn.dropout(self.h_pool_flat, self.dropout_keep_prob)
#Output with tf.name_scope("output"): W = tf.get_variable("W",shape=[num_filters_total, num_classes], initializer=tf.contrib.layers.xavier_initializer()) b = tf.Variable(tf.constant(0.1, shape=[num_classes]), name="b") l2_loss += tf.nn.l2_loss(W) l2_loss += tf.nn.l2_loss(b) self.scores = tf.nn.xw_plus_b(self.h_drop, W, b, name="scores") self.predictions = tf.argmax(self.scores, 1, name="predictions")
#Loss with tf.name_scope("loss"): losses = tf.nn.softmax_cross_entropy_with_logits(logits=self.scores, labels=self.input_y) self.loss = tf.reduce_mean(losses) + l2_reg_lambda * l2_loss
#Accuracy with tf.name_scope("accuracy"): correct_predictions = tf.equal(self.predictions, tf.argmax(self.input_y, 1)) self.accuracy = tf.reduce_mean(tf.cast(correct_predictions, "float"), name="accuracy")

训练结果

小结

本节简要地介绍了传统方法在文本分类方法任务中的基本流程以及存在的问题,并且阐述了深度学习方法在文本分类任务中优势,以及TextCNN以单个字符为单位,采用卷积提取局部特征,对于处理类似火星文的文本更加鲁棒。此外之所以选用CNN而没有选用像word2vec以及没有提到的RNN等深度学习方法,是因为CNN相对于word2vec能获得更好的局部的语序信息及语义信息;相比于RNN而言,CNN 是分层架构,CNN更适合提取关键特征,对于分类问题效果更好,而RNN是连续结构,更适合顺序建模,此外CNN适合并行计算,还可以采用GPU加速计算,响应时间短,inference只有3ms,非常适合垃圾文本检测速度的要求。

文本反垃圾模型线上部署流程

服务架构

反垃圾服务分为线上与线下两层。线上实时服务要求毫秒级判断文本是否属于垃圾文本,线下离线计算需要根据新进的样本不断更新模型,并及时推送到线上。垃圾文本识别是一个长期攻防的过程,平台上的垃圾文本会不断演变,模型的效果也会随之变化。

Tensorflow serving模型部署

TensorFlow Serving是一个灵活、高性能的机器学习模型服务系统,专为生产环境而设计。使用TensorFlow Serving可以将训练好的机器学习模型轻松部署到线上,并且支持热更新。它使用gRPC作为接口接受外部调用,服务稳定,接口简单。能检测模型最新版本并自动加载。这意味着一旦部署 TensorFlow Serving 后,不需要为线上服务操心,只需要关心线下模型训练。

客户端调用

TensorFlow Serving通过gRPC服务接受外部调用。gRPC是一个高性能、通用的开源RPC框架, gRPC提供了一种简单的方法来精确地定义服务和自动为客户端生成可靠性很强的功能库。

在使用gRPC进行通信之前,需要完成两步操作:

  1. 定义服务

  2. 生成服务端和客户端代码

定义服务这块工作TensorFlow Serving已经帮我们完成了。TensorFlow Serving项目中model.proto、predict.proto和prediction_service.proto这个三个.proto文件定义了一次预测请求的输入和输出

接下来用写好的客户端程序来调用部署好的模型,启动服务后,访问下面地址可以查看识别结果,说明模型部署成功且可以正常使用。

参考资料

  1. Kim Y. Convolutional neural networks for sentence classification[J]. arXiv preprint arXiv:1408.5882, 2014.

  2. http://web.stanford.edu/class/cs224n/slides/cs224n-2019-lecture11-convnets.pdf

  3. https://www.cnblogs.com/ljhdo/p/10578047.html

  4. https://tensorflow.google.cn/tfx/serving/architecture

  5. https://baike.baidu.com/item/火星文/608814

关注我们

界世的你当不

只做你的肩膀

 360官方技术公众号 

技术干货|一手资讯|精彩活动

空·

这篇关于文本反垃圾在花椒直播中的应用概述的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/471179

相关文章

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

hdu1394(线段树点更新的应用)

题意:求一个序列经过一定的操作得到的序列的最小逆序数 这题会用到逆序数的一个性质,在0到n-1这些数字组成的乱序排列,将第一个数字A移到最后一位,得到的逆序数为res-a+(n-a-1) 知道上面的知识点后,可以用暴力来解 代码如下: #include<iostream>#include<algorithm>#include<cstring>#include<stack>#in

zoj3820(树的直径的应用)

题意:在一颗树上找两个点,使得所有点到选择与其更近的一个点的距离的最大值最小。 思路:如果是选择一个点的话,那么点就是直径的中点。现在考虑两个点的情况,先求树的直径,再把直径最中间的边去掉,再求剩下的两个子树中直径的中点。 代码如下: #include <stdio.h>#include <string.h>#include <algorithm>#include <map>#

【区块链 + 人才服务】可信教育区块链治理系统 | FISCO BCOS应用案例

伴随着区块链技术的不断完善,其在教育信息化中的应用也在持续发展。利用区块链数据共识、不可篡改的特性, 将与教育相关的数据要素在区块链上进行存证确权,在确保数据可信的前提下,促进教育的公平、透明、开放,为教育教学质量提升赋能,实现教育数据的安全共享、高等教育体系的智慧治理。 可信教育区块链治理系统的顶层治理架构由教育部、高校、企业、学生等多方角色共同参与建设、维护,支撑教育资源共享、教学质量评估、

AI行业应用(不定期更新)

ChatPDF 可以让你上传一个 PDF 文件,然后针对这个 PDF 进行小结和提问。你可以把各种各样你要研究的分析报告交给它,快速获取到想要知道的信息。https://www.chatpdf.com/

Java 创建图形用户界面(GUI)入门指南(Swing库 JFrame 类)概述

概述 基本概念 Java Swing 的架构 Java Swing 是一个为 Java 设计的 GUI 工具包,是 JAVA 基础类的一部分,基于 Java AWT 构建,提供了一系列轻量级、可定制的图形用户界面(GUI)组件。 与 AWT 相比,Swing 提供了许多比 AWT 更好的屏幕显示元素,更加灵活和可定制,具有更好的跨平台性能。 组件和容器 Java Swing 提供了许多

【区块链 + 人才服务】区块链集成开发平台 | FISCO BCOS应用案例

随着区块链技术的快速发展,越来越多的企业开始将其应用于实际业务中。然而,区块链技术的专业性使得其集成开发成为一项挑战。针对此,广东中创智慧科技有限公司基于国产开源联盟链 FISCO BCOS 推出了区块链集成开发平台。该平台基于区块链技术,提供一套全面的区块链开发工具和开发环境,支持开发者快速开发和部署区块链应用。此外,该平台还可以提供一套全面的区块链开发教程和文档,帮助开发者快速上手区块链开发。

【C++高阶】C++类型转换全攻略:深入理解并高效应用

📝个人主页🌹:Eternity._ ⏩收录专栏⏪:C++ “ 登神长阶 ” 🤡往期回顾🤡:C++ 智能指针 🌹🌹期待您的关注 🌹🌹 ❀C++的类型转换 📒1. C语言中的类型转换📚2. C++强制类型转换⛰️static_cast🌞reinterpret_cast⭐const_cast🍁dynamic_cast 📜3. C++强制类型转换的原因📝