【NLP文章阅读】Zero-Shot Information Extraction via Chatting with ChatGPT

本文主要是介绍【NLP文章阅读】Zero-Shot Information Extraction via Chatting with ChatGPT,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

【NLP文章阅读】Zero-Shot Information Extraction via Chatting with ChatGPT

  • 1 模型创新
  • 2 前期调研
    • 2.1 难以解决的问题
  • 3 Method
    • 3.1 方法
    • 3.2 数据集
      • 3.2.1 RE
      • 3.2.2 NER
      • 3.2.3 EE
    • 3.3 评价指标
      • 3.3.1 RE
      • 3.3.2 NER
      • 3.3.3 EE
  • 4 效果

转载和使用规则:更多论文解读请关注: NLP_paper,如需转载文章需要为我的github项目star,并声明文章来源

1 模型创新

零样本信息提取(Information Extraction)旨在从未注释的文本中构建IE系统。由于很少涉及人类干预,这是一项具有挑战性的工作。零样本IE具有挑战性但值得一提,它减少了数据标记所需的时间和数据标注的麻烦

我们使用两阶段框架(ChatIE)将零样本IE任务转换为多轮问题解答问题。在三个IE任务上对我们的框架进行了广泛的评估:

  • 实体关系三重提取(entity–relation triple extract,RE)
  • 命名实体识别(name entity-relation,NER)
  • 事件提取(event extraction,EE)

在两种语言的六个数据集上的经验结果表明,ChatIE取得了令人印象深刻的性能。

2 前期调研

2.1 难以解决的问题

包含多个相关元素的结构化数据很难通过一次性预测来提取,尤其是对于RE等一些复杂任务。以前的工作将这些复杂任务分解为不同的部分,并训练几个模块来解决每个部分。

  • 例如,在RE任务中,pipline方法PURE首先识别两个实体,然后预测它们之间的关系。然而,在该模型中,需要通过标记数据进行监督。此外,Li等人将RE视为一个问答过程,首先提取主题,然后根据关系模板提取对象

3 Method

3.1 方法

Zero-shoot任务转换为具有两阶段框架的多回合问答问题。

  • 第一阶段,我们的目标是找出句子中可能存在的相应元素类型。
  • 第二阶段,我们对阶段I中的每个元素类型执行链式信息提取。每个阶段都通过多回合QA过程实现。
    在这里插入图片描述

3.2 数据集

3.2.1 RE

NYT11-HRL:包含12种预定义的关系类型。

DuIE2.0:业界最大的基于模式的中文RE数据集,包含48种预定义的关系类型

3.2.2 NER

conll2003:包含4种实体类型

MSRA:是一个以中文命名的新闻领域实体识别数据集,包含3种实体类型

3.2.3 EE

DuEE1.0:百度发布的一个中文事件提取数据集,包含65种事件类型。

ACE053语料库提供了来自新闻专线和在线论坛等多个领域的文档和句子级别的事件注释。

3.3 评价指标

3.3.1 RE

我们报告了标准的微观F1测量,并采用了两个评估指标:

1)边界值(BE):如果主体和对象以及关系的整个实体跨度都是正确的,则提取的关系三元组(主体、关系、对象)被认为是正确的。

2) 严格评估(SE):除了订单评估中需要的内容外,主体和客体的类型也必须正确。我们在NYT11-HRL上使用be,因为没有实体类型的注释,而在DuIE2.0上使用SE

3.3.2 NER

只考虑完全匹配,并使用微观F1来评估NER任务。只有当预测实体和真实实体的边界和类型相同时,我们才会将其视为正确的预测

3.3.3 EE

我们在DuEE1.0数据集和ACE05数据集上采用了不同的评估指标。对于DuEE1.0数据集,根据单词水平匹配对F-measure( F 1 4 F1^4 F14)进行评分。对于ACE05数据集,预测的自变量结果与实体级别的手动标记自变量结果相匹配,并由micro F1进行评估

TP: Ture Positive 把正的判断为正的数目。
FN: False Negative 把正的错判为负的数目。
FP: False Positive 把负的错判为正的数目。
TN: True Negative 把负的判为负的数目。

P(Precision)查准率,精确率:精确率就是算正样本中有多少是正确的。(简单来说是你预测为正的样本中有多少是正确的) 公式:P=TP/(TP+FP)

R(Recall)查全率,召回率:召回率是所有的正样本中有多少被预测正确了公式:R=TP/(TP+FN)

P , R是一对矛盾的度量,一般一个的值高了,另一个的值就会降低,

F1就是综合P,R公式:F1=2PR/(R+P)

4 效果

  • 在六个广泛使用的IE数据集上,ChatIE通常平均提高18.98%的性能。值得注意的是,与少镜头方法相比,这种提高变得更加显著。
  • 监督学习模型计算密集,需要高质量的标记数据。此外,对于每项任务,都会从头开始训练一个单独的模型。相比之下,ChatIE在没有任何微调和训练来更新参数的情况下工作。它大大减少了计算和时间投入。

这篇关于【NLP文章阅读】Zero-Shot Information Extraction via Chatting with ChatGPT的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/850294

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

uva 10061 How many zero's and how many digits ?(不同进制阶乘末尾几个0)+poj 1401

题意是求在base进制下的 n!的结果有几位数,末尾有几个0。 想起刚开始的时候做的一道10进制下的n阶乘末尾有几个零,以及之前有做过的一道n阶乘的位数。 当时都是在10进制下的。 10进制下的做法是: 1. n阶位数:直接 lg(n!)就是得数的位数。 2. n阶末尾0的个数:由于2 * 5 将会在得数中以0的形式存在,所以计算2或者计算5,由于因子中出现5必然出现2,所以直接一

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

AI行业应用(不定期更新)

ChatPDF 可以让你上传一个 PDF 文件,然后针对这个 PDF 进行小结和提问。你可以把各种各样你要研究的分析报告交给它,快速获取到想要知道的信息。https://www.chatpdf.com/

【北交大信息所AI-Max2】使用方法

BJTU信息所集群AI_MAX2使用方法 使用的前提是预约到相应的算力卡,拥有登录权限的账号密码,一般为导师组共用一个。 有浏览器、ssh工具就可以。 1.新建集群Terminal 浏览器登陆10.126.62.75 (如果是1集群把75改成66) 交互式开发 执行器选Terminal 密码随便设一个(需记住) 工作空间:私有数据、全部文件 加速器选GeForce_RTX_2080_Ti