App主流反垃圾服务难点和实现技术全解析

2024-03-14 17:32

本文主要是介绍App主流反垃圾服务难点和实现技术全解析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在近期做的一项2015年App统计中,以微信为首的社交类App占据了排行榜第一位,新闻类App位居第二,可见人们对社交的需求大过了获取新闻资讯的需求。在马斯洛需求层次理论中,社交需求仅次于生理需求和安全需求,位居第三,可见社交的重要性,恐怕这也是流行的那句话“无社交、不App”的真实本源。

App开发者想方设法在App里集成IM功能,鼓励用户沟通、互动、分享。但在享受用户量迅速上涨的同时,却也面临着不小的麻烦——垃圾信息。用户数量上来后,各种广告、钓鱼、色情等垃圾信息也不请自来。影响用户体验不说,一旦涉及到政治类信息,甚至会给App带来下架的风险,这实际上已经有过前车之鉴。即使是过百万用户量,由于没有即时采取措施遏制垃圾信息泛滥,最终导致被用户抛弃的App也已是不乏其数了。有人对此总结了一句话:“始于约炮,发展于炫耀,终结于代购”。

App植入IM功能是大势所需,关键在于,如何有效过滤各种垃圾消息,让App满足用户真正的社交需求。

垃圾消息分类与伪装术

“知己知彼,百战不殆”,我们先了解一下当前IM软件上垃圾信息的特点。

从内容上来看,垃圾信息通常分成这么几类:

  1. 广告类:用于推销商品、网站、店铺等,例如减肥药、化妆品、四六级答案等;
    广告类

  2. 钓鱼类:通过发布一些虚假信息,诱使人们点击或是回复,从而一步步陷入骗局;
    钓鱼类

  3. 色情类:用于色情交易或事色情网站宣传等;
    色情类

  4. SEO类:通过让用户点击提高小网站的搜索排名;

  5. 政治类:例如境外势力支持下的对重大事件的负面舆论。这类信息风险极大,一旦广为扩散极有可能造成App被下架。

对于简单的垃圾信息,管理员只要设置好关键字过滤即可。但发送者为了逃避拦截,通常都会对垃圾信息进行伪装,几种典型的伪装术:

  • 不相关内容+垃圾内容。例如在四、六级或考研季来临时,常常会收到这种垃圾消息:“白日依山尽,黄河入海流。考研答案,联系QQ******”。前半句“白日依山尽,黄河入海流”即为干扰项。
  • 添加随机噪声,包括文字变换,随机字母,不同字体等。例如,“QQ群”改写成“藤训裙”、“叩叩裙”等,或者同时使用符号、文字变换:
    图片描述

  • 使用多媒体技术,例如使用图片或者音视频来封装广告。

垃圾信息检测技术

从垃圾消息的伪装技术来看,仅依靠传统关键字过滤显然是无效的,必须另辟蹊径。目前在学术界和业界的几个研究方向:

1. antispam_based_user_keyword,基于敏感词的模糊匹配技术。

这项技术的核心是实用双数组字典树算法进行关键词的查询。首先服务会对输入的内容先进行简繁体、全半角、火星文、同义词、特殊字符过滤等一系列预处理。然后进行高效的关键词查询,主要功能点:

  • 基于基本词库进行过滤(如政治、色情、暴力等),同时支持用户自定义词库;
  • 大小写模糊匹配;
  • 将需要屏蔽的关键词替换为通配符(如星号*);

2. antispam_based_user_behavior,基于用户行为检测

基于用户行为的反垃圾算法的核心是使用聚类算法对用户行为进行识别,识别维度包括行为要素(如发送者、发送时间、内容类型等等)和行为关系。所谓行为关系,是指用户的社交属性,例如消息发送频率,时间间隔,消息响应率等等。通过高效的聚类算法可实现:

  • 单用户行为识别:如单一用户发送大量的垃圾信息;
  • 多用户行为识别:大量马甲发送大量的垃圾信息;
  • 识别图片、语音、视频等多媒体类型的垃圾信息。

3. antispam_based_user_content,基于用户内容的识别

基于内容的反垃圾服务的核心是构建分类器模型,采用自然语言处理技术(NLP),对内容进行语义分析,利用持续的机器学习与分类器训练,使机器能够理解语句的真实含义。该技术可实现:

  • 经过内容伪装的垃圾信息。例如加入了随机干扰内容的垃圾信息;
  • 局部热点聚类并拦截。通过聚类算法可识别一些特定范围内大量传播的垃圾信息,通过生产规则遏止这些信息进一步扩散。

国内市场上为App提供即时通讯能力的厂商一直在为App提供反垃圾信息服务而努力,比如将上述技术集成至IM产品中,可以在App中实现几种垃圾信息的拦截:

  1. 单一用户行为,如发送大量重复的“你好”、“hi”、可爱表情等打招呼行为,或冒充官网人员发送恶意链接、营销广告、色情信息等,这种类型的垃圾信息可基于用户行为检测技术+内容检测技术,同时借助NLP及训练模型对内容进行识别和拦截,紧急情况下可使用敏感词进行拦截。
  2. 多用户行为。例如垃圾信息发送者拥有马甲库,切换不同马甲来进行垃圾信息发送,甚至展开小型DDoS攻击,此类可基于全局用户行为检测技术,以及全局消息内容聚合进行识别和拦截;
  3. 高级形式的垃圾信息。如“目的内容+随机干扰”,这种形式的垃圾信息可通过局部聚类检测技术对热词进行识别,同时结合语义分析技术进行识别拦截;
  4. 对于内容完全随机的垃圾信息,可以采用发送频率限制技术增加发送者的成本,让他们趋于正常用户的行为,削减影响。

反垃圾技术流程图

反垃圾信息服务是一项“长期斗争”,除了技术手段外,还可以采取一些管理手段。例如,注册时要求绑定手机号,而非邮箱号。设置举报机制和拉黑功能等等,从而提升垃圾消息发送者的成本。通过技术手段,再辅以管理手段,必将遏止App中的垃圾消息,打造一个健康的网络社交环境。

作者简介:

马晓宇,环信联合创始人,拥有17年研发经验,先后任职于Symbian、Nokia,带领团队主持开发了数款Nokia手机的操作系统及内核软件,手机操作系统,手机应用软件专家。

第一时间掌握最新移动开发相关信息和技术,请关注mobilehub公众微信号(ID: mobilehub)。

mobilehub

这篇关于App主流反垃圾服务难点和实现技术全解析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/809160

相关文章

网页解析 lxml 库--实战

lxml库使用流程 lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 XPath表达式提供了良好的支 持,因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。 pip install lxml lxm| 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档,下面来介绍一下 lxml 库

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

Android实现任意版本设置默认的锁屏壁纸和桌面壁纸(两张壁纸可不一致)

客户有些需求需要设置默认壁纸和锁屏壁纸  在默认情况下 这两个壁纸是相同的  如果需要默认的锁屏壁纸和桌面壁纸不一样 需要额外修改 Android13实现 替换默认桌面壁纸: 将图片文件替换frameworks/base/core/res/res/drawable-nodpi/default_wallpaper.*  (注意不能是bmp格式) 替换默认锁屏壁纸: 将图片资源放入vendo

C#实战|大乐透选号器[6]:实现实时显示已选择的红蓝球数量

哈喽,你好啊,我是雷工。 关于大乐透选号器在前面已经记录了5篇笔记,这是第6篇; 接下来实现实时显示当前选中红球数量,蓝球数量; 以下为练习笔记。 01 效果演示 当选择和取消选择红球或蓝球时,在对应的位置显示实时已选择的红球、蓝球的数量; 02 标签名称 分别设置Label标签名称为:lblRedCount、lblBlueCount

【区块链 + 人才服务】可信教育区块链治理系统 | FISCO BCOS应用案例

伴随着区块链技术的不断完善,其在教育信息化中的应用也在持续发展。利用区块链数据共识、不可篡改的特性, 将与教育相关的数据要素在区块链上进行存证确权,在确保数据可信的前提下,促进教育的公平、透明、开放,为教育教学质量提升赋能,实现教育数据的安全共享、高等教育体系的智慧治理。 可信教育区块链治理系统的顶层治理架构由教育部、高校、企业、学生等多方角色共同参与建设、维护,支撑教育资源共享、教学质量评估、

Kubernetes PodSecurityPolicy:PSP能实现的5种主要安全策略

Kubernetes PodSecurityPolicy:PSP能实现的5种主要安全策略 1. 特权模式限制2. 宿主机资源隔离3. 用户和组管理4. 权限提升控制5. SELinux配置 💖The Begin💖点点关注,收藏不迷路💖 Kubernetes的PodSecurityPolicy(PSP)是一个关键的安全特性,它在Pod创建之前实施安全策略,确保P