别乱用开源数据集!这点不注意,小心被推上风口浪尖

2023-10-25 14:10

本文主要是介绍别乱用开源数据集!这点不注意,小心被推上风口浪尖,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文来源:OpenDataLab

更多资料获取:有道云笔记

为了共享科研成果,许多AI 研究员选择开源自己的项目和数据集。但开源不等于毫无限制,不代表使用者可以为所欲为。不正确的使用方式,会带来许多法律风险。

本文介绍数据集 License 的基本知识,教你看懂和正确使用它们。

IBM论文被曝抄袭开源项目

这两天,接连2篇入选的论文被曝抄袭,让原本就备受关注的CVPR 2022 站到了风口浪尖。

一篇是来自韩国首尔大学 AI 研究团队的论文,入选了 CVPR Oral(口头报告),被曝出涉嫌抄袭10篇论文,甚至出现原句照抄的内容。

另外,IBM 一篇入选的论文也被举报涉嫌抄袭,来自平安科技的研究员向CVPR 2022 program chairs 举证,指出 IBM 的 TableFormer 从方法论、预处理、后期处理、文字行检测与识别等9个方面抄袭了自己团队2021年的开源项目 TableMASTER。爆料者表示,很多痕迹都可以看出,IBM 基于他们开源的预训练模型训练,只是改了一些细节。[1][2]

IBM 相关 TableFormer论文被指抄袭(图源:参考资料[7])

这引发了国内外 AI 研究员的热烈讨论。有网友调侃,抄袭的论文都能拿Oral,而认认真真做实验的论文却因为各种理由被拒,得好好研究一下这是如何做到的。

其背后透露出的是科研人的苦楚、对论文审查结果的不满,还有对开源项目不规范使用的担忧。

数据集开放协议介绍

在倡导开源共享的今天,开源不仅仅是一种热爱分享的极客精神,而是已经成为一种分布式可信的开发模式。许可协议(License)则是规范知识产权保护与作品使用权限的有力载体。

不管是算法、模型、数据集,从创造之初就和其他创意作品一样默认享有著作权。许可协议则是基于著作权法,为了实现作品的自由分发以及自由修改,而提出的一系列标准化的公共许可合同,便于作品拥有人授权给其他人使用。

软件与其他类型的创意作品有较大不同,常用“开源协议”来规范开源软件的使用。比如,常见的Apache v2、BSD、MIT、GPL、LGPL等,有的数据集也会采用这类开源协议,经常接触开源项目的朋友比较熟悉,就不做过多展开。

代码托管平台的开源协议示意(图源:Github)

而常用的数据集许可协议有3种来源:

● 知识共享 (CC)

● 开放数据共享 (ODC)

● 社区数据许可协议 (CDLA)

知识共享许可协议

知识共享这一非营利性组织于2001年成立。知识共享组织提供了6种非独占的、不可撤销的标准化著作权许可协议,每个许可协议都有自己的使用条款,便于作品的作者放弃自己的部分著作权,从而有助于作品的共享。[3]

知识共享许可协议(Creative Commons license),即CC许可协议,是目前全球最受欢迎的数据集许可证,主要涉及4项权利,署名(BY)权,继承(SA)权,非盈利(NC)权,禁止演绎(ND)权。

(需要注意的是,CC许可协议是著作权许可协议,因此只涉及著作权及相关的邻接权,而不涉及专利、商标等其他知识产权,也不涉及肖像权、隐私权、形象权等其他权利。[4])

1. 六种CC许可协议

● CC BY

Attribution 署名)

保留原作者姓名,允许基于商业目的传播、改编或者二次创作。

● CC BY-SA 

(Attribution-ShareAlike 署名-相同方式共享)‍ 

保留原作者姓名,并且新作品也使用相同的许可协议,才能对原作进行基于商业目的的改编和二次创作。

● CC BY-ND 

(Attribution-NoDerivs 署名-禁止演绎)‍ 

保留原作者姓名,允许商用,但是不能改编原作与他人分享。

● CC BY-NC

(Attribution-Noncommercial 署名-非商业性)

保留原作者姓名,允许非商业目的重新编排、改编或者再创作,但是不能商用。基于原作的演绎作品无需使用相同的许可协议。

 CC BY-NC-SA 

(Attribution-NonCommercial-ShareAlike 署名-非商业性使用-相同方式共享) 

需保留原作者姓名,并在基于原作创作的新作品适用同类型的许可协议,即可基于非商业目的对原作重新编排、改编或者再创作。

● CC BY-NC-ND

(Attribution-NonCommercial-NoDerivs 署名-非商业使用-禁止演绎) 

这是六种主要许可协议中限制最为严格的,保留原作者姓名,允许下载和分享,但是不能对原作进行任何形式的修改和商用。

CC许可协议示意(图源:参考资料[5])

2. 公共领域许可协议

● CC0

知识共享组织于2009年发布了一种放弃著作权的便捷方式,即CC0。严格来讲CC0并非双方的许可合同,而是一种单方的声明。选择CC0作为许可协议,则说明作者将数据集捐赠给公众使用,此数据集完全公有,使用时无需署名,也无其他限制。

开放数据共享许可证

开放数据共享 (ODC) 为开放数据提供合法工具。他们提供三种许可类型,每种都有自己的使用条款!

● ODC-PDDL

这是开放数据共享公共领域专用许可证,版权所有者永久删除所有版权,不保留任何权利。这对应于CC0 许可协议。

● ODC-BY

这是开放数据共享署名许可。你可以自由分享和改编,但需要注明出处,允许商业用途。这对应于CC BY(署名)许可。

● ODC-ODbL

这是开放数据共享开放数据库许可证。你可以自由分享和改编,并在基于原作创作的新作品适用同类型的许可协议。允许商业用途。这对应于CC BY-SA (署名-相同方式共享)许可协议。

社区数据许可协议

2017年,Linux 基金会提出了社区数据许可协议 (CDLA) 为社区提供了开放的数据共享选项。他们提供两种许可类型,每种都有自己的使用条款。[5]

● CDLA-Permissive-2.0

这是社区数据许可协议的第二个版本。对开放数据的贡献者和使用者不作要求。你可以使用、修改和共享,许可协议不对结果的使用、修改或共享施加任何限制或义务。

● CDLA-Sharing-1.0

这属于copyleft(强制共享)许可类别,你可以使用、修改和共享,但无论是否修改,基于原作创作的新作品必须与原始版本有相同的许可协议。

社区数据许可协议 (CDLA)官网(图源:参考资料[6])

以上就是常见的数据集的许可协议类型,也即是我们常说的数据集License 的含义。你学会解读了吗?

License结构化描述与审核

在OpenDataHub,我们贴心地帮大家整理好了各个数据集的License信息,并且从Permission, Limitations, Condition三个方面进行结构化梳理,使之更加完善,方便大家自主查询。

同时,平台也建立了严格的安全审核机制,核实了每个数据集的分发依据,确保每个可获得的数据集都是符合授权的,使大家能够快速、便捷、安全无忧地使用。

还等什么,快来试试吧。

OpenDataHub数据集License示意 

(图源:https://opendatalab.com/)

参考资料

[1]https://zhuanlan.zhihu.com/p/115911178

[2]https://www.youtube.com/watch?v=UCmkpLduptU

[3]https://wiki.creativecommons.org/wiki/Considerations_for_licensors_and_licensees#Make_sure_the_material_is_appropriate_for_CC_licensing.

[4]https://www.reddit.com/r/MachineLearning/comments/vlpnuw/d_ibm_zurich_research_plagiarised_our_paper_and/

[5]https://creativecommons.org/

[6]https://cdla.dev/sharing-1-0/

[7]https://www.reddit.com/r/MachineLearning/comments/vlpnuw/d_ibm_zurich_research_plagiarised_our_paper_and/

这篇关于别乱用开源数据集!这点不注意,小心被推上风口浪尖的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/283092

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

购买磨轮平衡机时应该注意什么问题和技巧

在购买磨轮平衡机时,您应该注意以下几个关键点: 平衡精度 平衡精度是衡量平衡机性能的核心指标,直接影响到不平衡量的检测与校准的准确性,从而决定磨轮的振动和噪声水平。高精度的平衡机能显著减少振动和噪声,提高磨削加工的精度。 转速范围 宽广的转速范围意味着平衡机能够处理更多种类的磨轮,适应不同的工作条件和规格要求。 振动监测能力 振动监测能力是评估平衡机性能的重要因素。通过传感器实时监

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X