【数据分享】维基百科Wiki负面有害评论(网络暴力)文本数据多标签分类挖掘可视化...

本文主要是介绍【数据分享】维基百科Wiki负面有害评论(网络暴力)文本数据多标签分类挖掘可视化...,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

原文链接:http://tecdat.cn/?p=8640

讨论你关心的事情可能很困难。网络暴力骚扰的威胁意味着许多人停止表达自己并放弃寻求不同的意见查看文末了解数据免费获取方式。平台努力有效地促进对话,导致许多社区限制或完全关闭用户评论点击文末“阅读原文”获取完整代码数据)。

数据简介

AI团队正在研究工具,以帮助提高在线评论互动。一个重点领域是研究负面的在线行为,如有害评论(即粗鲁、不尊重或可能使某人离开讨论的评论)。到目前为止,他们已经构建了一系列可用模型。但是当前的模型仍然会出错,并且它们不允许用户选择他们感兴趣的有害评论类型,例如,某些平台可能可以接受亵渎,但不能接受其他类型的有害内容(查看文末了解数据获取方式)。

数据详情

数据格式

csv

字段

id

评论内容

有害的

严重有害的

猥亵

威胁

侮辱

身份_仇恨

大小

67191kb

样本量

159571

数据浏览

以前8行数据为例,我们来预览一下:

f10213751916c58bfed31ad8202acf21.png

变量探索:

b568c5e257d5bdfe6c01245fa14b0747.png

9e4b3a123fec22ca09b825e16ade925c.png

9dfb9c7d5c583e83a116c09e7c081799.png

6c193f72c9912a2eddfd570a0a0710fd.png

08e9e548308e6ceb87b549381ebfa4c6.png

84bce2841c4cc94fcd4b15cd23e2544d.png

78cb88178136fccf4580f7e0ed86fb01.png

50f133b6f495f99d91d9b2ec18a3f065.png

总体高频词

0534f510d58aeb2ff6924401df96b9e8.png

有害的高频词

ebbf6bc54b9b56b46f805792b3b47f6a.png

严重有害的高频词

d17ef3e211c65ecd089c8e49c7cb7f79.png

猥亵高频词

dc0d5464bad8f779d2cd4178a8afc209.png

词云

e8591b8ac4df973dbe74cde530b53745.png

数据获取

在下面公众号后台回复“有害评论文本数据”,可获取完整数据。


点击标题查阅往期内容

b70229689e648ba3824b4791c53b47f4.jpeg

Python中用PyTorch机器学习神经网络分类预测银行客户流失模型

outside_default.png

左右滑动查看更多

outside_default.png

01

ce30457d14c523df194351c063873327.png

02

979032cd6d0d77cf15d7ccc021e7c126.png

03

f3a2b126ec30d25ba7ab12f8351c15c1.png

04

1e950794c59c61e0fffbb687c3ad133d.png

34a3099b7e06b8d4b87804dd6a270968.jpeg

本文中分析的数据分享到会员群,扫描下面二维码即可加群!

6985da12cc61ce8a216ff398796a98a8.png

点击标题查阅往期内容

R语言NLP案例:LDA主题文本挖掘优惠券推荐网站数据

自然语言处理NLP:情感分析疫情下的新闻数据

R语言自然语言处理(NLP):情感分析新闻文本数据

python用于NLP的seq2seq模型实例:用Keras实现神经机器翻译

用于NLP的Python:使用Keras的多标签文本LSTM神经网络分类

适用于NLP自然语言处理的Python:使用FacebookFastText库

用于NLP的Python:使用Keras进行深度学习文本生成

用于NLP的Python:使用Keras的多标签文本LSTM神经网络分类

python在Keras中使用LSTM解决序列问题

Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析

Python中利用长短期记忆模型LSTM进行时间序列预测分析 - 预测电力消耗数据

在Python中使用LSTM和PyTorch进行时间序列预测

欲获取全文文件,请点击左下角“阅读原文”。

0eb1414982a34dbe40705e8ae613abea.gif

1ad6808d8dec30b2a0801fedb0567f6a.png

b574bfb009d68d83c60ffb2bc7d3a712.jpeg

0df9fbb4065a1a27cfdcc49112eff081.png

欲获取全文文件,请点击左下角“阅读原文”。

61226745ead5d89dba963892fef69528.gif

这篇关于【数据分享】维基百科Wiki负面有害评论(网络暴力)文本数据多标签分类挖掘可视化...的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/360338

相关文章

基于Python打造一个可视化FTP服务器

《基于Python打造一个可视化FTP服务器》在日常办公和团队协作中,文件共享是一个不可或缺的需求,所以本文将使用Python+Tkinter+pyftpdlib开发一款可视化FTP服务器,有需要的小... 目录1. 概述2. 功能介绍3. 如何使用4. 代码解析5. 运行效果6.相关源码7. 总结与展望1

CSS去除a标签的下划线的几种方法

《CSS去除a标签的下划线的几种方法》本文给大家分享在CSS中,去除a标签(超链接)的下划线的几种方法,本文给大家介绍的非常详细,感兴趣的朋友一起看看吧... 在 css 中,去除a标签(超链接)的下划线主要有以下几种方法:使用text-decoration属性通用选择器设置:使用a标签选择器,将tex

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

Linux系统配置NAT网络模式的详细步骤(附图文)

《Linux系统配置NAT网络模式的详细步骤(附图文)》本文详细指导如何在VMware环境下配置NAT网络模式,包括设置主机和虚拟机的IP地址、网关,以及针对Linux和Windows系统的具体步骤,... 目录一、配置NAT网络模式二、设置虚拟机交换机网关2.1 打开虚拟机2.2 管理员授权2.3 设置子

揭秘Python Socket网络编程的7种硬核用法

《揭秘PythonSocket网络编程的7种硬核用法》Socket不仅能做聊天室,还能干一大堆硬核操作,这篇文章就带大家看看Python网络编程的7种超实用玩法,感兴趣的小伙伴可以跟随小编一起... 目录1.端口扫描器:探测开放端口2.简易 HTTP 服务器:10 秒搭个网页3.局域网游戏:多人联机对战4.

MyBatis 动态 SQL 优化之标签的实战与技巧(常见用法)

《MyBatis动态SQL优化之标签的实战与技巧(常见用法)》本文通过详细的示例和实际应用场景,介绍了如何有效利用这些标签来优化MyBatis配置,提升开发效率,确保SQL的高效执行和安全性,感... 目录动态SQL详解一、动态SQL的核心概念1.1 什么是动态SQL?1.2 动态SQL的优点1.3 动态S

Python基于wxPython和FFmpeg开发一个视频标签工具

《Python基于wxPython和FFmpeg开发一个视频标签工具》在当今数字媒体时代,视频内容的管理和标记变得越来越重要,无论是研究人员需要对实验视频进行时间点标记,还是个人用户希望对家庭视频进行... 目录引言1. 应用概述2. 技术栈分析2.1 核心库和模块2.2 wxpython作为GUI选择的优

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T