独家 | 社交媒体假新闻检测方法及发展方向(附数据集)

2023-11-02 20:30

本文主要是介绍独家 | 社交媒体假新闻检测方法及发展方向(附数据集),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

作者:Kai Shu and Huan Liu from Arizona State University

翻译:窦英通

本文长度为2000字,建议阅读5分钟

本文为你介绍社交媒体假新闻的描述和检测及未来研究方向。

 

社交媒体对新闻传播是一把双刃剑。一方面,它成本低廉,容易获取,而且通过快速的传播,它允许用户消费和分享新闻。另一方面,它可以产生有害的假新闻,即一些有意含有错误信息的低质量新闻。假新闻的快速传播对社会和个人有着巨大的潜在危害。


举个例子,在2016年美国总统大选中,最受欢迎的假新闻在 Facebook 上的传播范围要比主流媒体的新闻还要大。因此,社交媒体中的假新闻检测引起了研究者和政治家们的注意。

 

社交媒体的假新闻检测有着独特的特性而且呈现出新的挑战。


首先,假新闻的内容是被有意制造用来误导读者,这使得我们很难根据其新闻的内容来判断是否是假新闻。因此,我们需要类似用户在社交媒体上的活跃度等辅助信息来将假新闻从真新闻中区分出来。


第二,用户基于假新闻的社交活动产生了大量不完整、非结构化和充满噪声的数据,这使得利用这些数据变得非常困难。这篇快速指南是基于最近的一篇关于目前社交媒体假新闻检测最新研究成果、数据集和未来研究方向的综述。

 

Shu, Kai, et al. "Fake News Detection on Social Media: A Data Mining Perspective." ACM SIGKDD Explorations Newsletter 19.1 (2017): 22-36.

 

接下来,我们将强调这篇综述的主要内容。

 

描述和检测


图1 社交媒体假新闻检测:从描述到检测


图1是社交媒体假新闻检测的流程概览,包括了两个方面:描述和检测。随着时间的变化,不论报纸还是电台电视再到最近的在线新闻和社交媒体,假新闻其本身并不是一个新的问题。假新闻在传统媒介中的影响力可以用心理学和社会学的理论来解释。


举个例子,有两大心理学因素使得用户天生地倾向于相信假新闻。


  • 朴素现实论(Naïve Realism):人们更倾向于将自己对现实的感知作为唯一的正确观点。


  • 确认偏差(Confirmation Bias):人们更倾向于接收那些认同他们自己观点的信息。


另外一个例子,社会认同理论(Social Identity Theory)和规范影响理论(Normative Influence Theory)认为社交接受偏好对一个人的身份至关重要,这使得人们选择消费那些“社交安全的”新闻,即使这些被分享的新闻是假新闻。


社交媒体上的假新闻有其独特的特征。有害账户可以轻而易举得生产假新闻并促使其传播,例如聊天机器人,机器人账户和网络喷子。此外,由于社交媒体主页上新闻展示的方式,人们总是有选择性地看到特定种类的新闻。


因此,社交媒体上的用户倾向于和自己观点相同的人形成群组,这样他们的观点更容易极化,产生一种回声室效应(echo chamber effect)。(笔者注:回声室效应是指人际交流过程中,只承认或接受与自己的观点相近的回应)

 

上述理论在指导假新闻检测研究方面具有重要意义。


现有的假新闻检测算法一般可分为:基于新闻内容的基于社会语境的


  • 基于新闻内容的方法着重于提取假新闻内容的各种特征,包括基于知识的和基于风格的特征。由于假消息试图传播虚假的观点,基于知识的方法旨在使用外部来源来检查新闻内容中的观点的真实性。此外,假新闻生产者往往恶意地传播歪曲和误导的新闻,这就需要特定的书写风格来吸引和说服广泛的新闻消费者。这些书写风格在真实的新闻文章中是看不到的。基于风格的方法尝试通过检测文章写作风格来检测假消息。


  • 基于社会语境的方法旨在利用用户社交活动作为辅助信息来帮助检测假新闻。基于态度的方法利用用户对相关帖子内容的观点来推断原始新闻文章的真实性。另外,基于传播的方法也通过推断相关社交媒体推文的关系来引导可信分数的学习,可信分数在用户、评论和新闻之间进行传播。新闻稿的真实性是通过合成相关社会媒体推文的可信分数来衡量的。

 

数据集


即使可以从不同的来源收集在线新闻,手动确定新闻的真实性是一项具有挑战性的任务,通常需要具有领域专业知识的标注器来对观点、附加的证据、上下文和来自权威来源的报告进行仔细分析。


由于存在这些挑战,现有公开的假新闻数据集相当有限。 为便于假新闻检测的研究,该综述提供了一个名为FakeNewsNet的可用数据集,其中包含新闻内容和正确标注真假新闻标签的社会语境特征。

 

https://github.com/KaiDMML/FakeNewsNet

 

图2 社交媒体假新闻检测未来的研究方向和开放性问题

 

未来研究方向

 

社会媒体的虚假新闻检测是一个新兴的研究领域。该综述从数据挖掘的角度讨论了相关的研究领域,开放性问题和未来研究方向。如图2所示,研究方向从四个方面概述:数据导向的特征导向的模型导向应用导向的

 

  • 数据导向的:重点关注假新闻数据的不同方面,如基准数据收集,假新闻的心理验证和早期的假新闻检测。


  • 面向特征的:旨在探索从多个数据源(如新闻内容和社会语境)中获取能检测假新闻的有效特征。


  • 模型导向的:为了建立更实用和有效的假新闻检测模型,包括监督,半监督和无监督的模型。


  • 面向应用的:它包含了超越假新闻检测的研究,如假新闻的扩散和干预。


原文标题:

A Quick Guide to Fake News Detection on Social Media


原文地址:

https://www.kdnuggets.com/2017/10/guide-fake-news-detection-social-media.html


编辑:黄继彦

窦英通,北京邮电大学大四学生,数据挖掘入门研究者,对社交网络分析,社交媒体挖掘,推系统感兴趣,致力于通过机器学习技术发现其余领域有价值的信息。喜欢新鲜的事物,希望在数据派中分享、交流、成长!

翻译组招募信息

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。


点击文末“阅读原文”加入数据派团队~

转载须知

如需转载文章,请做到 1、正文前标示:转自数据派THU(ID:DatapiTHU);2、文章结尾处附上数据派二维码。

申请转载,请发送邮件至datapi@tsingdata.com

点击“阅读原文”加入组织~

这篇关于独家 | 社交媒体假新闻检测方法及发展方向(附数据集)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/333094

相关文章

Feign Client超时时间设置不生效的解决方法

《FeignClient超时时间设置不生效的解决方法》这篇文章主要为大家详细介绍了FeignClient超时时间设置不生效的原因与解决方法,具有一定的的参考价值,希望对大家有一定的帮助... 在使用Feign Client时,可以通过两种方式来设置超时时间:1.针对整个Feign Client设置超时时间

C/C++错误信息处理的常见方法及函数

《C/C++错误信息处理的常见方法及函数》C/C++是两种广泛使用的编程语言,特别是在系统编程、嵌入式开发以及高性能计算领域,:本文主要介绍C/C++错误信息处理的常见方法及函数,文中通过代码介绍... 目录前言1. errno 和 perror()示例:2. strerror()示例:3. perror(

CSS去除a标签的下划线的几种方法

《CSS去除a标签的下划线的几种方法》本文给大家分享在CSS中,去除a标签(超链接)的下划线的几种方法,本文给大家介绍的非常详细,感兴趣的朋友一起看看吧... 在 css 中,去除a标签(超链接)的下划线主要有以下几种方法:使用text-decoration属性通用选择器设置:使用a标签选择器,将tex

C++变换迭代器使用方法小结

《C++变换迭代器使用方法小结》本文主要介绍了C++变换迭代器使用方法小结,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录1、源码2、代码解析代码解析:transform_iterator1. transform_iterat

C++中std::distance使用方法示例

《C++中std::distance使用方法示例》std::distance是C++标准库中的一个函数,用于计算两个迭代器之间的距离,本文主要介绍了C++中std::distance使用方法示例,具... 目录语法使用方式解释示例输出:其他说明:总结std::distance&n编程bsp;是 C++ 标准

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

Linux换行符的使用方法详解

《Linux换行符的使用方法详解》本文介绍了Linux中常用的换行符LF及其在文件中的表示,展示了如何使用sed命令替换换行符,并列举了与换行符处理相关的Linux命令,通过代码讲解的非常详细,需要的... 目录简介检测文件中的换行符使用 cat -A 查看换行符使用 od -c 检查字符换行符格式转换将

SpringBoot实现数据库读写分离的3种方法小结

《SpringBoot实现数据库读写分离的3种方法小结》为了提高系统的读写性能和可用性,读写分离是一种经典的数据库架构模式,在SpringBoot应用中,有多种方式可以实现数据库读写分离,本文将介绍三... 目录一、数据库读写分离概述二、方案一:基于AbstractRoutingDataSource实现动态

Java中的String.valueOf()和toString()方法区别小结

《Java中的String.valueOf()和toString()方法区别小结》字符串操作是开发者日常编程任务中不可或缺的一部分,转换为字符串是一种常见需求,其中最常见的就是String.value... 目录String.valueOf()方法方法定义方法实现使用示例使用场景toString()方法方法

Java中List的contains()方法的使用小结

《Java中List的contains()方法的使用小结》List的contains()方法用于检查列表中是否包含指定的元素,借助equals()方法进行判断,下面就来介绍Java中List的c... 目录详细展开1. 方法签名2. 工作原理3. 使用示例4. 注意事项总结结论:List 的 contain