谣言检测常用数据集汇总

2023-12-16 10:20

本文主要是介绍谣言检测常用数据集汇总,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Pheme-R

PHEME社交媒体谣言数据集:该目录包含PHEME谣言数据集,收集并在项目的新闻用例中注释。这些谣言与9条不同的突发新闻有关。它是为分析社交媒体谣言而创建的,并包含由谣言推文发起的推特对话;这些对话包括对那些谣言推文的回应。这些推文都经过注释,以获得支持、确定性和证据性。
我们用于收集Twitter对话的代码可以在GitHub上找到:https://github.com/azubiaga/pheme-twitter-conversation-collection

该数据集包含330个会话线程(297个英语线程,33个德语线程),每个线程都有一个文件夹,结构如下:

*source-tweets:这个文件夹包含一个json文件(源tweets)。
*reactions:这个文件夹包含所有tweets的json文件,通过回复参与对话。
*url-content:此文件夹包含从tweet指向的网页的内容。
*structure.json:该文件提供了对话的结构,从而更容易确定每个tweet的子tweet是什么,并通过将源tweet和回复放在一起来重建对话。
*retweets.json:该文件包含转发源tweet的tweet。
*who-following-whom.dat:该文件包含线程中正在关注其他人的用户。每行包含两个ID,表示具有第一个ID的用户跟随具有第二个ID的用户。注意,following不是对等的,因此,如果两个用户相互关注,那么它将被表示为两行,A B和B A。

*注释。该文件包含线程级别的手动注释,这对谣言特别有用,并包含以下字段:

** is_rumor:是谣言还是非谣言。
** category:描述谣言故事的标题,可用于与同一故事中的其他谣言分组。
** misinformation:0或1。它确定这个故事后来是否被证明是假的,在这种情况下设置为1,否则设置为0。
** true: 0或1。它确定该故事后来是否被证实为真的,在这种情况下设置为1,否则设置为0。
** is_turnaround: 0或1。如果一个帖子代表了谣言故事的转变,那么它就被标记为一个转折,要么在真实故事的情况下被证实,要么在虚假故事的情况下被揭穿。
** links:如果有,这包含了一个覆盖谣言故事的链接列表,其中包括链接的URL,媒体类型(社交媒体,新闻媒体或博客),以及它是反对,支持还是观察谣言。

===========

在这330个对话中的4,842条推文的推文级别执行的注释可以在两个文件中找到:

  • annotations/en-scheme-annotations.json (for the English threads)
  • annotations/de-scheme-annotations.json (for the German threads)

每行包含一条tweet,带有事件、线程和tweet标识符,以及支持、确定性和证据性的注释。

Twitter15、Twitter16

主目录包含两个 Twitter 数据集的目录:twitter15 和 twitter16。在每个目录中,都有:

  • ‘tree’ 子目录:此文件夹包含所有树文件,每个文件都对应给定源推文的树结构,其文件名由源推文 ID 指示。在树文件中,每行表示一条边,格式如下:
    ** 父节点 ->子节点
    ** 每个节点都以元组形式给出:[‘uid’, ‘tweet ID’, ‘post time delay (in minutes)’]

  • label.txt 文件:此文件以如下格式提供树的真值标签:
    ** ‘label:源推文 ID’

  • source_tweets.txt文件:此文件以如下格式提供树的源帖子内容:
    ** ‘源推文 ID t 源推文内容’

Weibo、Twitter

  • 推特数据
    Twitter.txt:该语料库总共包含992个标记事件。每行包含一个事件,其中包含相关推文的 ID:event_id、标签tweet_ids。对于标签,如果事件是谣言,则值为 1,否则为 0。请注意,由于 Twitter 数据的使用条款,我们无法发布推文的具体内容。用户可以通过 Twitter API 自行下载内容。
    Twitter_event_claims.txt:此文件提供每个事件的主要声明的内容。每行包含一个事件,其声明由event_id和声明内容组成。

  • 微博数据(Weibo.txt):该语料库共包含4664个标记事件。每行包含一个事件,其中包含相关帖子的 ID,格式为:event_id、标签post_ids。对于标签,如果事件是谣言,则值为 1,否则为 0。我们还以json格式发布所有帖子的内容,这些内容保存在./Weibo目录下,其中每个文件都命名为event_id.json,对应单个事件。

FakeNewsNet

Pheme

未更新完

这篇关于谣言检测常用数据集汇总的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/500125

相关文章

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

Redis 中的热点键和数据倾斜示例详解

《Redis中的热点键和数据倾斜示例详解》热点键是指在Redis中被频繁访问的特定键,这些键由于其高访问频率,可能导致Redis服务器的性能问题,尤其是在高并发场景下,本文给大家介绍Redis中的热... 目录Redis 中的热点键和数据倾斜热点键(Hot Key)定义特点应对策略示例数据倾斜(Data S

Python实现将MySQL中所有表的数据都导出为CSV文件并压缩

《Python实现将MySQL中所有表的数据都导出为CSV文件并压缩》这篇文章主要为大家详细介绍了如何使用Python将MySQL数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到... python将mysql数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到另一个

Linux上设置Ollama服务配置(常用环境变量)

《Linux上设置Ollama服务配置(常用环境变量)》本文主要介绍了Linux上设置Ollama服务配置(常用环境变量),Ollama提供了多种环境变量供配置,如调试模式、模型目录等,下面就来介绍一... 目录在 linux 上设置环境变量配置 OllamPOgxSRJfa手动安装安装特定版本查看日志在

Java常用注解扩展对比举例详解

《Java常用注解扩展对比举例详解》:本文主要介绍Java常用注解扩展对比的相关资料,提供了丰富的代码示例,并总结了最佳实践建议,帮助开发者更好地理解和应用这些注解,需要的朋友可以参考下... 目录一、@Controller 与 @RestController 对比二、使用 @Data 与 不使用 @Dat

Mysql中深分页的五种常用方法整理

《Mysql中深分页的五种常用方法整理》在数据量非常大的情况下,深分页查询则变得很常见,这篇文章为大家整理了5个常用的方法,文中的示例代码讲解详细,大家可以根据自己的需求进行选择... 目录方案一:延迟关联 (Deferred Join)方案二:有序唯一键分页 (Cursor-based Paginatio

Python实现常用文本内容提取

《Python实现常用文本内容提取》在日常工作和学习中,我们经常需要从PDF、Word文档中提取文本,本文将介绍如何使用Python编写一个文本内容提取工具,有需要的小伙伴可以参考下... 目录一、引言二、文本内容提取的原理三、文本内容提取的设计四、文本内容提取的实现五、完整代码示例一、引言在日常工作和学