ACL22--基于CLIP的非代表性新闻图像的多模态检测

本文主要是介绍ACL22--基于CLIP的非代表性新闻图像的多模态检测，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

摘要

这项研究调查了假新闻如何使用新闻文章的缩略图，重点关注新闻文章的缩略图是否正确代表了新闻内容。在社交媒体环境中，如果一篇新闻文章与一个不相关的缩略图一起分享，可能会误导读者对问题产生错误的印象，尤其是用户不太可能点击链接并消费整个内容的情况下。我们提议使用预训练的CLIP（Contrastive Language-Image Pretraining）表示来捕捉多模态关系中语义不一致的程度。从源级分析中，*我们发现假新闻比一般新闻更倾向于使用与主要内容不一致的图像。*进一步，我们尝试检测图文不一致的新闻文章。评估实验表明，基于CLIP的方法可以成功检测出缩略图在语义上与新闻文本无关的新闻文章。这项研究通过提供一种新视角来应对网络假新闻和错误信息，为研究做出了贡献。代码和数据集可在 https://github.com/ssu-humane/fake-news-thumbnail上获取。

3.1 Problem and hypothesis

我们将新闻标题和缩略图（设置为新闻HTML中的meta_img）作为分析的目标，原因如下：新闻学研究表明，新闻标题应提供新闻文章的简洁摘要（Smith和Fowler Jr，1982），因此我们把标题视为新闻文章的代表。在图像中，我们使用meta_img，因为它在社交媒体上分享时会自动用作预览。也就是说，当一篇新闻文章被分享时，缩略图和新闻标题成为首先展示给用户的内容。因此，如果缩略图不能正确代表新闻文章的主要内容，它可能会误导读者对目标问题产生错误的印象，因为社交媒体用户倾向于在不点击链接的情况下消费新闻片段（Gabielkov等人，2016）。

3.2 Method

在这里插入图片描述

3.3 Data Collection

目标媒体选择：为了评估主要研究假设，我们选择了在Twitter上运营认证媒体账户的九家新闻机构作为分析对象。具体来说，我们关注了五家普通新闻媒体（FoxNews、New York Post、Reuters、The Guardian、Slate）和四家假新闻媒体（Activist Post、Judicial Watch、End Time Headlines、WorldNetDaily）。假新闻的目标列表是从先前研究（Grinberg等人，2019）中被标记为红色新闻的媒体来源中选出的，这些媒体被定义为“传播明显反映了有缺陷的编辑过程的虚假信息”。我们从同一项先前工作中被标记为绿色的媒体中选出了五家普通新闻。我们确认了本研究考虑的普通新闻来源在政治偏见评级3上是平衡的。

推文收集：我们使用Twint库4从2021年1月到数据收集时（2021年9月）收集了推文。我们排除了不包含其新闻文章URL的推文。

新闻文章收集：对于每个新闻URL，我们使用newspaper3K库5获取了新闻标题、正文文本和缩略图URL。我们将新闻数据以JSON格式存储，并通过wget命令下载了图像。当新闻数据没有提供缩略图的URL，或者我们无法从缩略图URL下载任何图像时，我们没有将其包含在我们的数据收集中。

为了观察研究结果的稳健性，我们在原始数据集（Whole）之外，还构建了两个过滤版本的数据集进行分析。首先，我们将新闻话题的范围限定在COVID-19上，通过选择包含至少一个与COVID-19相关的关键词的新闻文章：coronavirus、corona、covid-19、corona virus、covid、covid19、sars-cov-2、pandemic、chinese virus、chinesevirus和corona。COVID-19问题在CLIP训练期间得到了广泛报道，因此我们假设CLIP嵌入能够比随机事件更好地理解COVID-19的语境。我们称这个经过COVID-19过滤的数据集为COVID。接下来，为了最大限度地减少假阴性的数量（即，模型认为相关的配对不相关），我们进一步过滤了COVID数据集中缩略图中包含人脸的新闻文章（COVID-wo-faces）。在初步分析中，我们发现CLIP在匹配文本中的人名和他们在图像中的外观方面并不擅长，特别是当他们不是名人时（例如，图3和图A1左下角的例子）。我们通过Google Cloud Vision的人脸检测模型检测包含人脸的图像。

3.4 Results

在这里插入图片描述

图3展示了具有CLIPScore值的标题-图像对。顶部的三个例子展示了具有高CLIPScore的配对，这些是从CLIPScore排名前500的新闻文章中抽取的。底部的三个例子是从CLIPScore排名后500的例子中随机选取的。高分例子展示了CLIP在理解书面文本和视觉对象外观方面的能力。另一方面，底部的三个例子展示了低CLIPScore可能代表的两种情况。首先，整个数据集中的《纽约邮报》的例子表明，CLIP编码器在识别图像中的一个人的外观、文本中的名字或两者方面存在困难。其次，COVID和COVID-wo-faces数据集中的低分例子代表了缩略图不代表新闻文本的情况，这表明CLIPScore在捕捉具有非代表性缩略图的新闻文章方面的潜力。因此，我们使用CLIPScore来理解假新闻和可信媒体在新闻标题和缩略图之间语义相关性方面的差异，涵盖三个数据集。过滤后的数据集的观察结果可以作为稳健性检查。
在这里插入图片描述

图4展示了假新闻和普通新闻在新闻标题和缩略图的语义相关性方面的差异，由CLIPScore测量。我们进行了t检验以评估差异的统计显著性，并计算了Cohen’s d来衡量其效应大小。x轴展示了CLIPScore阈值，y轴展示了从分布中CLIPScore小于或等于阈值的概率。结果表明，假新闻往往比普通新闻具有更低的CLIPScore，这一趋势在三个数据集中都具有统计显著性。相应的效应大小分别为整个数据集、COVID数据集和COVID-wo-faces数据集的0.596、0.545和0.594。这些值被认为是中等效应大小，表明假新闻倾向于使用与新闻标题语义上相似度较低的缩略图，因此支持了第3.1节中的主要假设。

4 Detection of News Articles with the Incongruous Imag

在这里插入图片描述
CLIP分类器：图6展示了所提出模型的神经架构。CLIP分类器接收来自CLIP文本和视觉编码器的文本嵌入c和视觉嵌入v作为输入，并将这对图文分类为“一致”（匹配良好）或“不一致”（匹配不佳）。该模型被训练以最小化二元交叉熵损失，使用AdamW优化器（学习率为0.001）进行训练，批量大小为128。在训练期间我们没有更新CLIP主干网络。我们使用了阈值为1.0的梯度裁剪和早停法。