VLDB-2020 论文简析:检测和预防众包数据中的混淆标签-Detecting and Preventing Confused Labels in Crowdsourced Data

本文主要是介绍VLDB-2020 论文简析:检测和预防众包数据中的混淆标签-Detecting and Preventing Confused Labels in Crowdsourced Data,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

VLDB2020论文简析:检测和预防众包数据中的混淆标签-Detecting and Preventing Confused Labels in Crowdsourced Data

    • 研究背景
    • 研究目标
    • 问题挑战
    • 作者贡献
    • 总体模型
    • 1 真值发现器的生成模型
    • 2 检测混淆观测的推理算法(MCMC-C)
    • 3 基于MV的贪婪算法
    • 数据集
    • 实验分析
    • 困惑/思考

研究背景

  • 如今,众包通常用于解决类似AI相关的问题,例如对象分类以及为机器学习(ML)算法生成带标签的训练数据。
  • 因为观察的混淆,或者是因为两个对象是相似的,或者因为任务描述解释的差异,众包工作者可能将i类的对象与j类的对象混淆,导致众包工作者标记的数据可能且通常会带有偏差或噪声。
    例如:如下图所示,摩纳哥国旗、波兰国旗和印度尼西亚国旗,红薯和山药,演员Rami Said Malek和皇后乐队主唱Freddie Mercury,通常是因为它们是相似的,导致在众包任务中工作人员出现观察混淆,从而辨别错误。
    在这里插入图片描述
    正如上述例子展示的那样,即使整体工作人员的准确性都非常高,但这些错误在不被注意的情况下,也很可能出现混淆,因为这不是一个全面的问题,只针对某些类。如果不被发现和未纠正,这导致一些类的标签总是错误的。

研究目标

  • (从任务设计者的角度)在标识给出类标签并清晰的地方识别任务标签中的混淆。例如:在用旗帜或食物或著名演员的名字来标记图片的任务中识别混淆。
  • 在众包过程的早期发现混乱(即在少数投票之后),这样就可以尽早提醒任务设计者并改进任务;
  • 能够处理众包标签,以检测和纠正混淆标签。

问题挑战

针对上述情况,对象分类任务中混淆错误的真值发现问题的解决具有以下困难挑战:

  • ① 一个能检测混淆错误的真值发现模型
    需要扩展现有的真值发现模型,使其能够对可能的混淆错误进行建模和推理,但是没有任何现有真相发现模型的解决方案能够做到这一点。
  • ② 需要指定源和对象之间的所有概率依赖关系
  • ③ 计算上的时间、空间复杂度考虑
    为了检测和考虑混淆错误,需要测试所有可能的混淆,并查看其中哪些可能存在混淆。这是一个计算上昂贵的操作,它需要搜索指数数量的状态可能性(Nc个可能的混淆观察有2^Nc个状态)。
  • ④ 研究针对的是在一组可能被混淆的类中的情况。
    必须从数据中学习模型参数的数量和类型并且能够在工人、物品和标签的数量上进行缩放,才能有效地做到这一点。

作者贡献

  • 问题建模为一个分类任务,并引入了“聚类”( 生成的聚类就是假设的互相混淆的对象组)的概念,通过显式建模混淆来扩展这个基本模型。然后

这篇关于VLDB-2020 论文简析:检测和预防众包数据中的混淆标签-Detecting and Preventing Confused Labels in Crowdsourced Data的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/358951

相关文章

C++如何通过Qt反射机制实现数据类序列化

《C++如何通过Qt反射机制实现数据类序列化》在C++工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作,所以本文就来聊聊C++如何通过Qt反射机制实现数据类序列化吧... 目录设计预期设计思路代码实现使用方法在 C++ 工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作。由于数据类

SpringBoot使用GZIP压缩反回数据问题

《SpringBoot使用GZIP压缩反回数据问题》:本文主要介绍SpringBoot使用GZIP压缩反回数据问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录SpringBoot使用GZIP压缩反回数据1、初识gzip2、gzip是什么,可以干什么?3、Spr

SpringBoot集成Milvus实现数据增删改查功能

《SpringBoot集成Milvus实现数据增删改查功能》milvus支持的语言比较多,支持python,Java,Go,node等开发语言,本文主要介绍如何使用Java语言,采用springboo... 目录1、Milvus基本概念2、添加maven依赖3、配置yml文件4、创建MilvusClient

SpringValidation数据校验之约束注解与分组校验方式

《SpringValidation数据校验之约束注解与分组校验方式》本文将深入探讨SpringValidation的核心功能,帮助开发者掌握约束注解的使用技巧和分组校验的高级应用,从而构建更加健壮和可... 目录引言一、Spring Validation基础架构1.1 jsR-380标准与Spring整合1

MySQL 中查询 VARCHAR 类型 JSON 数据的问题记录

《MySQL中查询VARCHAR类型JSON数据的问题记录》在数据库设计中,有时我们会将JSON数据存储在VARCHAR或TEXT类型字段中,本文将详细介绍如何在MySQL中有效查询存储为V... 目录一、问题背景二、mysql jsON 函数2.1 常用 JSON 函数三、查询示例3.1 基本查询3.2

SpringBatch数据写入实现

《SpringBatch数据写入实现》SpringBatch通过ItemWriter接口及其丰富的实现,提供了强大的数据写入能力,本文主要介绍了SpringBatch数据写入实现,具有一定的参考价值,... 目录python引言一、ItemWriter核心概念二、数据库写入实现三、文件写入实现四、多目标写入

使用Python将JSON,XML和YAML数据写入Excel文件

《使用Python将JSON,XML和YAML数据写入Excel文件》JSON、XML和YAML作为主流结构化数据格式,因其层次化表达能力和跨平台兼容性,已成为系统间数据交换的通用载体,本文将介绍如何... 目录如何使用python写入数据到Excel工作表用Python导入jsON数据到Excel工作表用

Mysql如何将数据按照年月分组的统计

《Mysql如何将数据按照年月分组的统计》:本文主要介绍Mysql如何将数据按照年月分组的统计方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mysql将数据按照年月分组的统计要的效果方案总结Mysql将数据按照年月分组的统计要的效果方案① 使用 DA

鸿蒙中Axios数据请求的封装和配置方法

《鸿蒙中Axios数据请求的封装和配置方法》:本文主要介绍鸿蒙中Axios数据请求的封装和配置方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录1.配置权限 应用级权限和系统级权限2.配置网络请求的代码3.下载在Entry中 下载AxIOS4.封装Htt

CSS去除a标签的下划线的几种方法

《CSS去除a标签的下划线的几种方法》本文给大家分享在CSS中,去除a标签(超链接)的下划线的几种方法,本文给大家介绍的非常详细,感兴趣的朋友一起看看吧... 在 css 中,去除a标签(超链接)的下划线主要有以下几种方法:使用text-decoration属性通用选择器设置:使用a标签选择器,将tex