案例精析—2021语言与智能技术竞赛:多形态信息抽取任务

本文主要是介绍案例精析—2021语言与智能技术竞赛:多形态信息抽取任务,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

总结

  • 文章来源:CSDN_LawsonAbs
  • LawsonAbs的认知与思考,望各位读者审慎阅读。
  • 本文可以看做是2021语言与智能技术竞赛:多形态信息抽取任务比赛过程的一个记录。

1 百度Baseline

百度baseline是使用paddle 写的,主要的思想是一个多层的指针网络。

1.1 关于 predicate2id.json 文件

这里针对 predicate = 配音这个就生成了如下两个 predicate 值:
配音_inwork配音_@value。 因为这是一个复杂的结构体,而不能简单的抽取配音就可以了。
在这里插入图片描述

1.2 在运行 run_duie.py 脚本时,出现如下的界面?是什么问题?

在这里插入图片描述

没找到是什么原因。惨!

2. 2020年的冠军解决方案

采用创新技术方案,把实体抽取任务分为主语抽取、宾语抽取和关系分类三个步骤,输出层采用机器阅读理解中的指针网络作为基本结构,有效解决了实体进行两两匹配带来的大量负样本问题,训练效果大大提升,最终取得了第一名的成绩。

3 Baseline 的错误样例分析

这些问题来源于 error case 分析

3.1 text 没有有效的分隔符(猜测)

在这里插入图片描述
预测结果:
在这里插入图片描述
这里预测结果较差,主要有两个原因:

  • 因为text 间没有有效的分隔符,
  • baseline 中的是 将subject 和 object 全部组合在一起,

2 噪音数据

在这里插入图片描述
在这里插入图片描述
模型能够预测出来,但是dev_train.json 中却没有给出正确的来。

在这里插入图片描述
上面这条数据是不是有点儿问题? 只是标注了一个西班牙语,怎么就变成了官方语言?
在这里插入图片描述
针对上面这条数据,我想采取一个分阶段训练的方法:

  • 第一阶段大致训练一个模型
  • 第二阶段开始精致调参,丢弃loss超过一定范围的数据。要保证每条数据都能被完全充分的利用

这种数据标注情况非常常见,所以一定要使用修改后的train数据来训练,否则会很影响训练效果

3.3 少字导致错误

如下面所示: 因为预测的是情人,而正确的是情人节,导致出现错误。
在这里插入图片描述

这个里面还有一个就是@xxx 竟然也被预测出来了。

3.4 遗漏数据

训练好的模型有很多遗漏,这里简单展示一下:
forget

在这里插入图片描述
在这里插入图片描述

观察这么多的数据,发现原因是无法预测潜在的关系

其实模型并不知道 的差别,它们的embedding 甚至都很相似,所以就会产生下面这种错误。
在这里插入图片描述

其它

在这里插入图片描述

在这里插入图片描述
这里的数字都预测错误了

在这里插入图片描述
隔这么远都能预测,但是预测的都是错误的,肯定是有某些数据导致产生这种问题。

遗漏的有1w条(recall很低),(即使除去官方数据中的错误标注)precision也不是很高。
在这里插入图片描述

3.4 我的想法

3.4.1 噪音数据处理(未实现)

将空格,替换成[sep],或者是其它特殊字符。

3.4.2 数据迭代(未实现)

当前的模型根本是理解不了语义的,所以我认为一切的问题都是数据的问题,如果能利用好所有的正确数据,而规避错误数据集,再采用迭代训练的方式来解决这个问题。

3.4.3 dropout(未实现)

能不能 dropout 掉所有无用的数据?

4 疑问

4.1 怎么根据生成的标签,匹配出一组?

将匹配出来的subject 和 object 循环匹配即可,所以这种匹配方式可能会导致出现冗余。冗余情形如下:
在这里插入图片描述

4.2 如何根据predicate 的label生成最后的结果?

这个是写在baseline utils.py 下 的decoding 函数中。

5 团队方案

基于之前的冠军方案,下面介绍一下我们的方案

5.1 模型结构

在这里插入图片描述
总体是一个 pipeline 的方式:

  • step 1. 先预测subject 【NER问题】
  • setp 2. 再预测上述subject 下的所有 object 【NER 问题】
  • step 3. 使用上述 subject 和 object 得到的元组,去预测二者的关系类别 【分类问题】

样例解释:在这里插入图片描述

  • 先预测出宇文娥英
  • 再在宇文娥英 的基础上,预测出杨丽华周宣帝
  • 再将宇文娥英+杨丽华 => 母亲宇文娥英+周宣帝 => 父亲

5.2 模型效果

在这里插入图片描述

precision 和 recall都很低 ,说明模型遗漏了基础要点。

5.3 模型预测结果错误样例分析

5.3.1 subject 预测的成功率不高(待解决)

单独运行 预测subject 的效果,发现其效果并不好
在这里插入图片描述

5.3.2 英文字符间的空格被分开了导致出错(待解决)

在这里插入图片描述

5.3.3 因为字不在vocab库导致出错(已解决)

在这里插入图片描述

5.4 改进方案

  • 使用subjectobject预测relation时,加O 类。(加一部分噪音数据构造O类) 【2021-4-11】
  • 模型加CRF 【2021-4-11】
  • 模型加入scheduler 参数 【2021-04-18】
  • pu learning 【2021-04-18】
  • 数据迭代【2021-04-25】
  • 梯度累积【2021-04-25】
  • 在训练模型时使用 Sampler 【2021-04-25】

5.5 其它优化方案

  • 降低batch中的数据集大小

这篇关于案例精析—2021语言与智能技术竞赛:多形态信息抽取任务的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/525092

相关文章

Java实现任务管理器性能网络监控数据的方法详解

《Java实现任务管理器性能网络监控数据的方法详解》在现代操作系统中,任务管理器是一个非常重要的工具,用于监控和管理计算机的运行状态,包括CPU使用率、内存占用等,对于开发者和系统管理员来说,了解这些... 目录引言一、背景知识二、准备工作1. Maven依赖2. Gradle依赖三、代码实现四、代码详解五

C#读取本地网络配置信息全攻略分享

《C#读取本地网络配置信息全攻略分享》在当今数字化时代,网络已深度融入我们生活与工作的方方面面,对于软件开发而言,掌握本地计算机的网络配置信息显得尤为关键,而在C#编程的世界里,我们又该如何巧妙地读取... 目录一、引言二、C# 读取本地网络配置信息的基础准备2.1 引入关键命名空间2.2 理解核心类与方法

如何使用celery进行异步处理和定时任务(django)

《如何使用celery进行异步处理和定时任务(django)》文章介绍了Celery的基本概念、安装方法、如何使用Celery进行异步任务处理以及如何设置定时任务,通过Celery,可以在Web应用中... 目录一、celery的作用二、安装celery三、使用celery 异步执行任务四、使用celery

什么是cron? Linux系统下Cron定时任务使用指南

《什么是cron?Linux系统下Cron定时任务使用指南》在日常的Linux系统管理和维护中,定时执行任务是非常常见的需求,你可能需要每天执行备份任务、清理系统日志或运行特定的脚本,而不想每天... 在管理 linux 服务器的过程中,总有一些任务需要我们定期或重复执行。就比如备份任务,通常会选在服务器资

C语言线程池的常见实现方式详解

《C语言线程池的常见实现方式详解》本文介绍了如何使用C语言实现一个基本的线程池,线程池的实现包括工作线程、任务队列、任务调度、线程池的初始化、任务添加、销毁等步骤,感兴趣的朋友跟随小编一起看看吧... 目录1. 线程池的基本结构2. 线程池的实现步骤3. 线程池的核心数据结构4. 线程池的详细实现4.1 初

使用Python检查CPU型号并弹出警告信息

《使用Python检查CPU型号并弹出警告信息》本教程将指导你如何编写一个Python程序,该程序能够在启动时检查计算机的CPU型号,如果检测到CPU型号包含“I3”,则会弹出一个警告窗口,感兴趣的小... 目录教程目标方法一所需库步骤一:安装所需库步骤二:编写python程序步骤三:运行程序注意事项方法二

PostgreSQL如何查询表结构和索引信息

《PostgreSQL如何查询表结构和索引信息》文章介绍了在PostgreSQL中查询表结构和索引信息的几种方法,包括使用`d`元命令、系统数据字典查询以及使用可视化工具DBeaver... 目录前言使用\d元命令查看表字段信息和索引信息通过系统数据字典查询表结构通过系统数据字典查询索引信息查询所有的表名可

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于