App主流反垃圾服务难点和实现技术全解析

本文主要是介绍App主流反垃圾服务难点和实现技术全解析，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

在近期做的一项2015年App统计中，以微信为首的社交类App占据了排行榜第一位，新闻类App位居第二，可见人们对社交的需求大过了获取新闻资讯的需求。在马斯洛需求层次理论中，社交需求仅次于生理需求和安全需求，位居第三，可见社交的重要性，恐怕这也是流行的那句话“无社交、不App”的真实本源。

App开发者想方设法在App里集成IM功能，鼓励用户沟通、互动、分享。但在享受用户量迅速上涨的同时，却也面临着不小的麻烦——垃圾信息。用户数量上来后，各种广告、钓鱼、色情等垃圾信息也不请自来。影响用户体验不说，一旦涉及到政治类信息，甚至会给App带来下架的风险，这实际上已经有过前车之鉴。即使是过百万用户量，由于没有即时采取措施遏制垃圾信息泛滥，最终导致被用户抛弃的App也已是不乏其数了。有人对此总结了一句话：“始于约炮，发展于炫耀，终结于代购”。

App植入IM功能是大势所需，关键在于，如何有效过滤各种垃圾消息，让App满足用户真正的社交需求。

垃圾消息分类与伪装术

“知己知彼，百战不殆”，我们先了解一下当前IM软件上垃圾信息的特点。

从内容上来看，垃圾信息通常分成这么几类：

广告类：用于推销商品、网站、店铺等，例如减肥药、化妆品、四六级答案等；
钓鱼类：通过发布一些虚假信息，诱使人们点击或是回复，从而一步步陷入骗局；
色情类：用于色情交易或事色情网站宣传等；
SEO类：通过让用户点击提高小网站的搜索排名；
政治类：例如境外势力支持下的对重大事件的负面舆论。这类信息风险极大，一旦广为扩散极有可能造成App被下架。

对于简单的垃圾信息，管理员只要设置好关键字过滤即可。但发送者为了逃避拦截，通常都会对垃圾信息进行伪装，几种典型的伪装术：

不相关内容＋垃圾内容。例如在四、六级或考研季来临时，常常会收到这种垃圾消息：“白日依山尽，黄河入海流。考研答案，联系QQ＊＊＊＊＊＊”。前半句“白日依山尽，黄河入海流”即为干扰项。
添加随机噪声，包括文字变换，随机字母，不同字体等。例如，“QQ群”改写成“藤训裙”、“叩叩裙”等，或者同时使用符号、文字变换：
使用多媒体技术，例如使用图片或者音视频来封装广告。

垃圾信息检测技术

从垃圾消息的伪装技术来看，仅依靠传统关键字过滤显然是无效的，必须另辟蹊径。目前在学术界和业界的几个研究方向：

1. antispam_based_user_keyword，基于敏感词的模糊匹配技术。

这项技术的核心是实用双数组字典树算法进行关键词的查询。首先服务会对输入的内容先进行简繁体、全半角、火星文、同义词、特殊字符过滤等一系列预处理。然后进行高效的关键词查询，主要功能点：

基于基本词库进行过滤（如政治、色情、暴力等），同时支持用户自定义词库；
大小写模糊匹配；
将需要屏蔽的关键词替换为通配符（如星号＊）；

2. antispam_based_user_behavior，基于用户行为检测

基于用户行为的反垃圾算法的核心是使用聚类算法对用户行为进行识别，识别维度包括行为要素（如发送者、发送时间、内容类型等等）和行为关系。所谓行为关系，是指用户的社交属性，例如消息发送频率，时间间隔，消息响应率等等。通过高效的聚类算法可实现：

单用户行为识别：如单一用户发送大量的垃圾信息；
多用户行为识别：大量马甲发送大量的垃圾信息；
识别图片、语音、视频等多媒体类型的垃圾信息。

3. antispam_based_user_content，基于用户内容的识别

基于内容的反垃圾服务的核心是构建分类器模型，采用自然语言处理技术（NLP），对内容进行语义分析，利用持续的机器学习与分类器训练，使机器能够理解语句的真实含义。该技术可实现：

经过内容伪装的垃圾信息。例如加入了随机干扰内容的垃圾信息；
局部热点聚类并拦截。通过聚类算法可识别一些特定范围内大量传播的垃圾信息，通过生产规则遏止这些信息进一步扩散。

国内市场上为App提供即时通讯能力的厂商一直在为App提供反垃圾信息服务而努力，比如将上述技术集成至IM产品中，可以在App中实现几种垃圾信息的拦截：

单一用户行为，如发送大量重复的“你好”、“hi”、可爱表情等打招呼行为，或冒充官网人员发送恶意链接、营销广告、色情信息等，这种类型的垃圾信息可基于用户行为检测技术＋内容检测技术，同时借助NLP及训练模型对内容进行识别和拦截，紧急情况下可使用敏感词进行拦截。
多用户行为。例如垃圾信息发送者拥有马甲库，切换不同马甲来进行垃圾信息发送，甚至展开小型DDoS攻击，此类可基于全局用户行为检测技术，以及全局消息内容聚合进行识别和拦截；
高级形式的垃圾信息。如“目的内容＋随机干扰”，这种形式的垃圾信息可通过局部聚类检测技术对热词进行识别，同时结合语义分析技术进行识别拦截；
对于内容完全随机的垃圾信息，可以采用发送频率限制技术增加发送者的成本，让他们趋于正常用户的行为，削减影响。

反垃圾技术流程图