ACL22--基于CLIP的非代表性新闻图像的多模态检测

2024-09-06 13:04

本文主要是介绍ACL22--基于CLIP的非代表性新闻图像的多模态检测,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

摘要

这项研究调查了假新闻如何使用新闻文章的缩略图,重点关注新闻文章的缩略图是否正确代表了新闻内容。在社交媒体环境中,如果一篇新闻文章与一个不相关的缩略图一起分享,可能会误导读者对问题产生错误的印象,尤其是用户不太可能点击链接并消费整个内容的情况下。我们提议使用预训练的CLIP(Contrastive Language-Image Pretraining)表示来捕捉多模态关系中语义不一致的程度。从源级分析中,*我们发现假新闻比一般新闻更倾向于使用与主要内容不一致的图像。*进一步,我们尝试检测图文不一致的新闻文章。评估实验表明,基于CLIP的方法可以成功检测出缩略图在语义上与新闻文本无关的新闻文章。这项研究通过提供一种新视角来应对网络假新闻和错误信息,为研究做出了贡献。代码和数据集可在 https://github.com/ssu-humane/fake-news-thumbnail上获取。

3.1 Problem and hypothesis

我们将新闻标题和缩略图(设置为新闻HTML中的meta_img)作为分析的目标,原因如下:新闻学研究表明,新闻标题应提供新闻文章的简洁摘要(Smith和Fowler Jr,1982),因此我们把标题视为新闻文章的代表。在图像中,我们使用meta_img,因为它在社交媒体上分享时会自动用作预览。也就是说,当一篇新闻文章被分享时,缩略图和新闻标题成为首先展示给用户的内容。因此,如果缩略图不能正确代表新闻文章的主要内容,它可能会误导读者对目标问题产生错误的印象,因为社交媒体用户倾向于在不点击链接的情况下消费新闻片段(Gabielkov等人,2016)。

3.2 Method

在这里插入图片描述

3.3 Data Collection

目标媒体选择:为了评估主要研究假设,我们选择了在Twitter上运营认证媒体账户的九家新闻机构作为分析对象。具体来说,我们关注了五家普通新闻媒体(FoxNews、New York Post、Reuters、The Guardian、Slate)和四家假新闻媒体(Activist Post、Judicial Watch、End Time Headlines、WorldNetDaily)。假新闻的目标列表是从先前研究(Grinberg等人,2019)中被标记为红色新闻的媒体来源中选出的,这些媒体被定义为“传播明显反映了有缺陷的编辑过程的虚假信息”。我们从同一项先前工作中被标记为绿色的媒体中选出了五家普通新闻。我们确认了本研究考虑的普通新闻来源在政治偏见评级3上是平衡的。

推文收集:我们使用Twint库4从2021年1月到数据收集时(2021年9月)收集了推文。我们排除了不包含其新闻文章URL的推文。

新闻文章收集:对于每个新闻URL,我们使用newspaper3K库5获取了新闻标题、正文文本和缩略图URL。我们将新闻数据以JSON格式存储,并通过wget命令下载了图像。当新闻数据没有提供缩略图的URL,或者我们无法从缩略图URL下载任何图像时,我们没有将其包含在我们的数据收集中。

为了观察研究结果的稳健性,我们在原始数据集(Whole)之外,还构建了两个过滤版本的数据集进行分析。首先,我们将新闻话题的范围限定在COVID-19上,通过选择包含至少一个与COVID-19相关的关键词的新闻文章:coronavirus、corona、covid-19、corona virus、covid、covid19、sars-cov-2、pandemic、chinese virus、chinesevirus和corona。COVID-19问题在CLIP训练期间得到了广泛报道,因此我们假设CLIP嵌入能够比随机事件更好地理解COVID-19的语境。我们称这个经过COVID-19过滤的数据集为COVID。接下来,为了最大限度地减少假阴性的数量(即,模型认为相关的配对不相关),我们进一步过滤了COVID数据集中缩略图中包含人脸的新闻文章(COVID-wo-faces)。在初步分析中,我们发现CLIP在匹配文本中的人名和他们在图像中的外观方面并不擅长,特别是当他们不是名人时(例如,图3和图A1左下角的例子)。我们通过Google Cloud Vision的人脸检测模型检测包含人脸的图像。

3.4 Results

在这里插入图片描述

图3展示了具有CLIPScore值的标题-图像对。顶部的三个例子展示了具有高CLIPScore的配对,这些是从CLIPScore排名前500的新闻文章中抽取的。底部的三个例子是从CLIPScore排名后500的例子中随机选取的。高分例子展示了CLIP在理解书面文本和视觉对象外观方面的能力。另一方面,底部的三个例子展示了低CLIPScore可能代表的两种情况。首先,整个数据集中的《纽约邮报》的例子表明,CLIP编码器在识别图像中的一个人的外观、文本中的名字或两者方面存在困难。其次,COVID和COVID-wo-faces数据集中的低分例子代表了缩略图不代表新闻文本的情况,这表明CLIPScore在捕捉具有非代表性缩略图的新闻文章方面的潜力。因此,我们使用CLIPScore来理解假新闻和可信媒体在新闻标题和缩略图之间语义相关性方面的差异,涵盖三个数据集。过滤后的数据集的观察结果可以作为稳健性检查。
在这里插入图片描述

图4展示了假新闻和普通新闻在新闻标题和缩略图的语义相关性方面的差异,由CLIPScore测量。我们进行了t检验以评估差异的统计显著性,并计算了Cohen’s d来衡量其效应大小。x轴展示了CLIPScore阈值,y轴展示了从分布中CLIPScore小于或等于阈值的概率。结果表明,假新闻往往比普通新闻具有更低的CLIPScore,这一趋势在三个数据集中都具有统计显著性。相应的效应大小分别为整个数据集、COVID数据集和COVID-wo-faces数据集的0.596、0.545和0.594。这些值被认为是中等效应大小,表明假新闻倾向于使用与新闻标题语义上相似度较低的缩略图,因此支持了第3.1节中的主要假设。

4 Detection of News Articles with the Incongruous Imag

在这里插入图片描述
CLIP分类器:图6展示了所提出模型的神经架构。CLIP分类器接收来自CLIP文本和视觉编码器的文本嵌入c和视觉嵌入v作为输入,并将这对图文分类为“一致”(匹配良好)或“不一致”(匹配不佳)。该模型被训练以最小化二元交叉熵损失,使用AdamW优化器(学习率为0.001)进行训练,批量大小为128。在训练期间我们没有更新CLIP主干网络。我们使用了阈值为1.0的梯度裁剪和早停法。

这篇关于ACL22--基于CLIP的非代表性新闻图像的多模态检测的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1142078

相关文章

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

Vue3项目开发——新闻发布管理系统(六)

文章目录 八、首页设计开发1、页面设计2、登录访问拦截实现3、用户基本信息显示①封装用户基本信息获取接口②用户基本信息存储③用户基本信息调用④用户基本信息动态渲染 4、退出功能实现①注册点击事件②添加退出功能③数据清理 5、代码下载 八、首页设计开发 登录成功后,系统就进入了首页。接下来,也就进行首页的开发了。 1、页面设计 系统页面主要分为三部分,左侧为系统的菜单栏,右侧

基于 YOLOv5 的积水检测系统:打造高效智能的智慧城市应用

在城市发展中,积水问题日益严重,特别是在大雨过后,积水往往会影响交通甚至威胁人们的安全。通过现代计算机视觉技术,我们能够智能化地检测和识别积水区域,减少潜在危险。本文将介绍如何使用 YOLOv5 和 PyQt5 搭建一个积水检测系统,结合深度学习和直观的图形界面,为用户提供高效的解决方案。 源码地址: PyQt5+YoloV5 实现积水检测系统 预览: 项目背景

JavaFX应用更新检测功能(在线自动更新方案)

JavaFX开发的桌面应用属于C端,一般来说需要版本检测和自动更新功能,这里记录一下一种版本检测和自动更新的方法。 1. 整体方案 JavaFX.应用版本检测、自动更新主要涉及一下步骤: 读取本地应用版本拉取远程版本并比较两个版本如果需要升级,那么拉取更新历史弹出升级控制窗口用户选择升级时,拉取升级包解压,重启应用用户选择忽略时,本地版本标志为忽略版本用户选择取消时,隐藏升级控制窗口 2.

Verybot之OpenCV应用一:安装与图像采集测试

在Verybot上安装OpenCV是很简单的,只需要执行:         sudo apt-get update         sudo apt-get install libopencv-dev         sudo apt-get install python-opencv         下面就对安装好的OpenCV进行一下测试,编写一个通过USB摄像头采

[数据集][目标检测]血细胞检测数据集VOC+YOLO格式2757张4类别

数据集格式:Pascal VOC格式+YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):2757 标注数量(xml文件个数):2757 标注数量(txt文件个数):2757 标注类别数:4 标注类别名称:["Platelets","RBC","WBC","sickle cell"] 每个类别标注的框数:

Temu官方宣导务必将所有的点位材料进行检测-RSL资质检测

关于饰品类产品合规问题宣导: 产品法规RSL要求 RSL测试是根据REACH法规及附录17的要求进行测试。REACH法规是欧洲一项重要的法规,其中包含许多对化学物质进行限制的规定和高度关注物质。 为了确保珠宝首饰的安全性,欧盟REACH法规规定,珠宝首饰上架各大电商平台前必须进行RSLReport(欧盟禁限用化学物质检测报告)资质认证,以确保产品不含对人体有害的化学物质。 RSL-铅,

LLM系列 | 38:解读阿里开源语音多模态模型Qwen2-Audio

引言 模型概述 模型架构 训练方法 性能评估 实战演示 总结 引言 金山挂月窥禅径,沙鸟听经恋法门。 小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:卖铁观音的小男孩,今天这篇小作文主要是介绍阿里巴巴的语音多模态大模型Qwen2-Audio。近日,阿里巴巴Qwen团队发布了最新的大规模音频-语言模型Qwen2-Audio及其技术报告。该模型在音频理解和多模态交互