开源开放 | 一个用于知识驱动的零样本学习研究的开源数据集KZSL(CCKS2021)

本文主要是介绍开源开放 | 一个用于知识驱动的零样本学习研究的开源数据集KZSL(CCKS2021),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

OpenKG地址:http://openkg.cn/dataset/k-zsl

GitHub地址:https://github.com/China-UK-ZSL/Resources_for_KZSL

开放许可协议:CC BY-SA 4.0 (署名相似共享)

贡献者:浙江大学(耿玉霞、陈卓、陈华钧),牛津大学(陈矫彦),爱丁堡大学(Jeff Z. Pan),华为(苑宗港)


摘要

本开放资源由浙江大学知识引擎实验室以及牛津大学的陈矫彦研究员和爱丁堡大学的Jeff Z. Pan教授联合贡献。在此开放资源中,我们为零样本学习相关技术贡献了类别语义知识图谱,图谱囊括了类别的属性信息和文本信息、结构化知识信息,以及语义更丰富的逻辑约束信息等,包含了比以往工作更丰富的类别语义知识,为推动知识驱动的零样本学习研究提供数据支撑。

1. 前言:知识驱动的零样本学习

近年来,深度学习技术依托强大的计算资源、复杂的神经网络和大规模的标注数据集在视觉、语言、医学、金融等广泛的研究领域取得了显著的成就。然而,在现实应用场景中,尤其是在开放世界的背景假设下,随时会有一些新的概念/对象出现,持续地为这些新概念/对象收集样本并进行标注是极为不现实的。因此,研究人员提出了零样本学习(Zero-shot Learning, ZSL)的概念,用于处理没有标注样本的情况下概念/对象的预测问题,以解决现有的深度学习模型尤其是有监督学习模型对大量标注数据(即训练样本)的依赖。

借助一个直观的例子,我们首先对ZSL的工作原理做一个简单的介绍:某动物园内,小明在爸爸的带领下先后认识了马、老虎和熊猫三种动物,随后爸爸让小明在动物园里找一种之前从未见过的动物——斑马,并告诉了小明关于斑马的信息:“斑马的体型很像马,它身上还有像老虎一样的条纹,而且它像熊猫一样是黑色色的”。最后,小明根据爸爸的提示,在动物园里找到了斑马。

上述例子描述了一个典型的人类推理的过程——利用常识或者某个领域的专业知识(马、老虎、熊猫和斑马的描述),在脑海里推理出新对象的具体形态,从而对新对象进行辨认。ZSL所做的正是模仿人的这种推理能力,依赖对象间的语义联系,将模型在有标注样本的、训练过的对象(Seen Object,即上述例子中的马、老虎、熊猫)上学习到的特征迁移到没有标注样本、未在训练集中出现过的新对象(Unseen Object,即斑马)上,从而解决这些没有训练样本的对象的预测问题。

图1 知识驱动的零样本学习

对象间的语义联系通常依赖一些外部知识建立,如自然语言文本,这些外部知识从另一维度对象进行了描述(区别于对象的样本),且相比于标注样本更容易获取(如百科知识、在线语料)。其他的一些领域特定的语义知识如属性描述、类别层次等描述了领域内概念间的关系,为该领域的零样本预测问题提供了帮助。

2. 资源构建及概况

借助知识图谱强大的知识表示和知识融合能力,我们提出使用知识图谱建模对象间的语义联系,并将现有的语义关系补充到图谱资源中,同时引入更丰富的关系类型,旨在解决现有工作中对象关系语义不足,以及缺乏基准数据集以公平比较各类知识驱动的零样本学习方法的问题。我们为两个典型的、来自不同领域的零样本学习问题构建了资源,即零样本图像分类和零样本知识图谱补全任务,下面我们将对这两个任务资源的构建过程进行简单介绍,具体的构建细节可参见原文(https://arxiv.org/pdf/2102.07339.pdf)。

零样本图像分类任务(ZS-IMGC)资源构建过程

零样本图像分类任务(Zero-shot Image Classification, ZS-IMGC),是指分类未在训练集中出现的类别的图像。在训练集中出现过的类别定义为seen类别,而未出现的类别定义为unseen类别,我们使用知识图谱为这些类别标签构建它们之间的语义联系。资源的构建过程如下:

(1)我们首先使用WordNet中定义的类别层次关系建立KG的基本结构,其中 每个类别对应 WordNet 中的一个实体节点,由 WordNet 实体 ID 唯一标识,不同的节点之间通过subClassOf关系连接;

(2)基于此结构,我们加入类别的属性信息。属性同样也被表示为节点,并通过自定义的ID唯一标识。对于类别节点和属性节点之间关系的定义,我们通过对属性分组/分类实现,这是因为,类别的部分属性信息通常描述了对象相同方面的特征,如红色、白色、黑色等属性均描述了对象的外观颜色,对于相同类别的属性,我们为其定义对应的连接关系,如为颜色属性定义hasColor属性。此外,对于属性的归类,同时也丰富了属性间的关系;

(3)接下来,我们在图谱中加入当前实体的文本描述信息。考虑到类别间具有明显的层次关联关系,且父类别与子类别间名称较相似,如红狐、黑狐等都是狐狸类别的子类,因此,我们选择类别及属性的名称作为文本语义加入图谱,并通过label关系,与当前图谱进行关联;

(4)此外,我们从外部KG如ConceptNet中抽取与当前类别和属性相关的知识。具体地,我们利用类别和属性的文本信息以字符串匹配的方式与外部 KG中的实体进行对齐,并抽取这些实体1跳范围内的三元组加入当前图谱中。对齐后的实体通过 sameAs 关系关联。此外,为保证抽取知识的质量,ConceptNet中一些不相关的关系在抽取的过程中被过滤;

(5)除上述语义信息外,我们在图谱中也引入了类别间以及类别和属性间的逻辑互斥关系。这是因为很多类别虽然视觉上存在较大差异但存在数量不少的共享属性,如“斑马”、“老虎”都有属性“条纹”、“尾巴”和“肌肉”等。大量的共享属性,使得这些视觉差异较大的类别,很容易在特征迁移时互相影响,因此,我们在这些类别之间添加互斥关系。同时我们也类别和属性间的互斥关系,如“斑马不吃鱼”声明了“斑马”和“吃鱼”间的互斥关系。

经上述构建过程,我们为ZS-IMGC任务构建了领域特定的知识图谱语义资源,构建的片段如下图所示:

我们以ZS-IMGC任务的三个基准数据集AwA、ImNet-A和ImNet-O为例构建了该资源,资源的统计信息如下表所示。

零样本知识图谱补全任务(ZS-KGC)资源构建过程

该任务主要是为知识图谱补全过程中出现的新关系建模语义知识。不同于为ZS-IMGC构建的知识图谱资源,针对KG(即data graph)本身零样本的问题,我们利用知识图谱本体层的语义信息为知识图谱关系构建语义图谱(即schema graph)。

(1)我们首先利用RDFS中的术语定义schema graph的基本结构,不同于一般KG中关系被建模为实体间的连接边,在schema graph中,关系也可以出现在实体的位置,以此建模关系之间的关系,即元关系。具体地,我们利用rdfs:subPropertyOf定义关系间的层次关系,rdfs:domain和rdfs:range定义分别定义关系的头尾实体类型约束,以及rdfs:subClassOf 定义实体类型的层次结构,下图展示了该 schema的一个片段。

(2)随后,我们在schema graph中加入实体类型和关系的文本描述信息,引入关系的文本语义,这些文本通过rdfs:comment属性与当前图谱进行关联;

(3)除上述语义外,我们引入OWL术语描述关系间更复杂的关系,主要包括两类,一类是对关系间关系的表达,如等价关系、互逆关系、互斥关系以及组合关系,这些关系对于关系间关系的建立有重要帮助,如已知一个seen关系和一个unseen关系互为逆关系,则可以通过该seen关系的三元组直接推理预测出unseen的部分三元组。另一类是关系的属性信息,如对称&非对称、自反&非自反、函数&反函数、传递性等,这些属性可以帮助unseen关系进行更好的预测。

经上述构建过程,我们为ZS-KGC任务构建了领域特定的本体语义资源,构建的片段如下图所示:

我们以ZS-KGC任务的两个基准数据集NELL-ZS和Wikidata-ZS为例构建了该资源,资源的统计信息如下表所示。

3. 资源用途

对于构建后的资源,我们可以从以下几个方面进行利用:

(1)首先是用于提升ZSL模型性能。现有ZSL方法在训练模型时,通常利用从语义知识中学习的语义向量,如属性向量和文本词向量。相应地,在利用基于知识图谱的语义资源增强ZSL模型性能时,可借助语义嵌入的相关技术如知识图谱表示学习和本体表示学习等对图谱进行向量化的表示,得到类别/关系的语义向量,应用到ZSL模型中;

(2)该资源还可应用于为ZSL模型提供可解释性。图谱中包含的类别间的共享知识可以很好地为类别间特征的可迁移性提供佐证。相比于使用通用域知识图谱为模型提供可解释性,我们所构建的知识图谱资源更加领域适配;

(3)从资源的统计数据中,我们可以发现,我们构建的图谱资源具有样本分布不均衡、部分关系/元关系具有对称性,以及存在组合逻辑语义等特点,这些语义特征依赖现有的知识图谱表示学习及本体表示学习技术无法很好地捕获,因此,我们希望基于此开放资源,探究表达能力更强、更鲁棒的语义嵌入技术,从而在深度学习的背景;

4. 总结

在本开放资源中,我们为来自两个不同领域的零样本学习任务构建了基于知识图谱的类别语义信息,并详解介绍了该语义资源的构建过程,构建的资源整合 ZSL 现有语义信息的同时,也为 ZSL 任务带来了语义更丰富的知识。这些知识 为 ZSL 模型定义了更丰富的类别/关系描述信息,从而帮助其进行更好的特 征迁移,同时,图谱资源也为 ZSL 模型的可解释性等任务带来了更丰富的 领域知识。我们希望此开放资源,可以更好地为研究知识驱动的零样本学习技术以及表达能力更强的语义嵌入技术提供支持,探究有效的神经-符号集成(Neural-Symbolic Integration)模式,促进人工智能系统的进步。


 

OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

这篇关于开源开放 | 一个用于知识驱动的零样本学习研究的开源数据集KZSL(CCKS2021)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/851047

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

Java架构师知识体认识

源码分析 常用设计模式 Proxy代理模式Factory工厂模式Singleton单例模式Delegate委派模式Strategy策略模式Prototype原型模式Template模板模式 Spring5 beans 接口实例化代理Bean操作 Context Ioc容器设计原理及高级特性Aop设计原理Factorybean与Beanfactory Transaction 声明式事物

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06