Big Bird: Transformers for Longer Sequences论文详解

2024-05-14 11:38

本文主要是介绍Big Bird: Transformers for Longer Sequences论文详解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • Big Bird大鸟模型
  • 论文要解决问题
  • 解决方法
    • 随机注意力
    • 固定窗口注意力
    • 全局注意力
    • 复杂度分析
  • 实验
    • 三种注意力的消融实验。
    • 语言模型对比roberta、longformer
    • QA问题中对比longformer
    • 长文本分类任务
    • 文章摘要任务
    • 基因语言模型实验
  • 如有问题欢迎指出,参考论文https://arxiv.org/abs/2007.14062

Big Bird大鸟模型

论文要解决问题

  • 如下图,Transformer模型中,注意力中Q、K点乘的内存、速度是序列长度的平方复杂度。长文本时,这个复杂度是不可接受的。一般做法是切成512的块,这种做法损失了块与块之间的信息,例如QA问题中Q必须看到所有A才行,文章摘要中必须看到全部文章。论文提出了一个O(n)复杂度的算法,能够解决以上问题,同时该论文还证明这种方法是图灵完备的。
    在这里插入图片描述

解决方法

  • 论文提出固定窗口、全局注意力、随机注意力。除了随机注意力外,这些方法几乎和longformer一样。longformer可以参考我的另外一篇文章longformer论文解析。和longformer相比,该文做了大量实验,且证明是图灵完备的。
  • 如下图,横坐标是Q,纵坐标是K,QK的数量都是序列长度,所以是正方形。图中有色面积代表Q*K的数量。图a是随机注意,图b是固定窗口,c是全局注意力,d是三种汇总。
  • 三种注意力都使用稀疏矩阵实现。
    在这里插入图片描述

随机注意力

  • 对于每个Q,都等概率随机关注r个Key,就像图中A所示。实验中r在200左右。

固定窗口注意力

  • 对于每个Q,都关注相邻的左边w/2个Key,右边w/2个key。这个主要是大多数nlp任务中,都可以发现,相邻文本影响比较大。实验中w在252左右。

全局注意力

  • 有部分特殊的Q关注全部的Key,论文中分两种。一种是BigBird-itc, 也就是在现有的token中选一部分Q关注全部的K。 一种是BigBird-etc,增加token,关注全部的token。全局注意力的数量在256左右。

复杂度分析

  • 三种注意力复杂度大概就是(200 + 252 + 256 )* n的复杂度。我们可以看出,虽然是线性复杂度,但是系数非常大。而且稀疏矩阵的乘法远远低于高度优化的原始attention的dense矩阵乘法。但是太长文本,dense矩阵无法存储也无法计算,也是硬伤。

实验

  • 文章中做了大量的长序列实验,甚至基因序列实验,证明的改方法的有效性。

三种注意力的消融实验。

  • 用512长度的bert-base对比,三种注意力结合使用,基本接近bert-base效果。
    在这里插入图片描述

语言模型对比roberta、longformer

  • 长文本(4096)的语言模型中,优于roberta,itc低于longformer,etc高于longformer。
    在这里插入图片描述

QA问题中对比longformer

  • QA问题是一个长文本分析的任务,每个Q都看到所以的A才能回答比较好。big bird-itc、etc都接近longformer。
    在这里插入图片描述

长文本分类任务

  • 在长文本分类任务中,Bigbird比robert提高5个点。
    在这里插入图片描述

文章摘要任务

  • 文章摘要是一个明显的长文本任务,摘要肯定不能只靠前512个token在生成。可以看到big-brid base large模型都明显提升。
    在这里插入图片描述

基因语言模型实验

  • 基因是明显非常长的片段,是一个非常好的长序列的任务。基因片段也是类似bert的方法,先用sentense piece方法切分成词,然后随机遮住片段(10% 的概率),训练模型预测遮住的片段,使用mlm模型。
    在这里插入图片描述
  • 实验结果展示,好于bert的效果。
    在这里插入图片描述

如有问题欢迎指出,参考论文https://arxiv.org/abs/2007.14062

这篇关于Big Bird: Transformers for Longer Sequences论文详解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/988645

相关文章

MySQL 主从复制部署及验证(示例详解)

《MySQL主从复制部署及验证(示例详解)》本文介绍MySQL主从复制部署步骤及学校管理数据库创建脚本,包含表结构设计、示例数据插入和查询语句,用于验证主从同步功能,感兴趣的朋友一起看看吧... 目录mysql 主从复制部署指南部署步骤1.环境准备2. 主服务器配置3. 创建复制用户4. 获取主服务器状态5

一文详解如何使用Java获取PDF页面信息

《一文详解如何使用Java获取PDF页面信息》了解PDF页面属性是我们在处理文档、内容提取、打印设置或页面重组等任务时不可或缺的一环,下面我们就来看看如何使用Java语言获取这些信息吧... 目录引言一、安装和引入PDF处理库引入依赖二、获取 PDF 页数三、获取页面尺寸(宽高)四、获取页面旋转角度五、判断

Spring Boot中的路径变量示例详解

《SpringBoot中的路径变量示例详解》SpringBoot中PathVariable通过@PathVariable注解实现URL参数与方法参数绑定,支持多参数接收、类型转换、可选参数、默认值及... 目录一. 基本用法与参数映射1.路径定义2.参数绑定&nhttp://www.chinasem.cnbs

MySql基本查询之表的增删查改+聚合函数案例详解

《MySql基本查询之表的增删查改+聚合函数案例详解》本文详解SQL的CURD操作INSERT用于数据插入(单行/多行及冲突处理),SELECT实现数据检索(列选择、条件过滤、排序分页),UPDATE... 目录一、Create1.1 单行数据 + 全列插入1.2 多行数据 + 指定列插入1.3 插入否则更

Redis中Stream详解及应用小结

《Redis中Stream详解及应用小结》RedisStreams是Redis5.0引入的新功能,提供了一种类似于传统消息队列的机制,但具有更高的灵活性和可扩展性,本文给大家介绍Redis中Strea... 目录1. Redis Stream 概述2. Redis Stream 的基本操作2.1. XADD

Spring StateMachine实现状态机使用示例详解

《SpringStateMachine实现状态机使用示例详解》本文介绍SpringStateMachine实现状态机的步骤,包括依赖导入、枚举定义、状态转移规则配置、上下文管理及服务调用示例,重点解... 目录什么是状态机使用示例什么是状态机状态机是计算机科学中的​​核心建模工具​​,用于描述对象在其生命

Java JDK1.8 安装和环境配置教程详解

《JavaJDK1.8安装和环境配置教程详解》文章简要介绍了JDK1.8的安装流程,包括官网下载对应系统版本、安装时选择非系统盘路径、配置JAVA_HOME、CLASSPATH和Path环境变量,... 目录1.下载JDK2.安装JDK3.配置环境变量4.检验JDK官网下载地址:Java Downloads

使用Python删除Excel中的行列和单元格示例详解

《使用Python删除Excel中的行列和单元格示例详解》在处理Excel数据时,删除不需要的行、列或单元格是一项常见且必要的操作,本文将使用Python脚本实现对Excel表格的高效自动化处理,感兴... 目录开发环境准备使用 python 删除 Excphpel 表格中的行删除特定行删除空白行删除含指定

MySQL中的LENGTH()函数用法详解与实例分析

《MySQL中的LENGTH()函数用法详解与实例分析》MySQLLENGTH()函数用于计算字符串的字节长度,区别于CHAR_LENGTH()的字符长度,适用于多字节字符集(如UTF-8)的数据验证... 目录1. LENGTH()函数的基本语法2. LENGTH()函数的返回值2.1 示例1:计算字符串

Spring Boot spring-boot-maven-plugin 参数配置详解(最新推荐)

《SpringBootspring-boot-maven-plugin参数配置详解(最新推荐)》文章介绍了SpringBootMaven插件的5个核心目标(repackage、run、start... 目录一 spring-boot-maven-plugin 插件的5个Goals二 应用场景1 重新打包应用