Big Bird: Transformers for Longer Sequences论文详解

2024-05-14 11:38

文章标签 详解论文 bird big transformers sequences longer

本文主要是介绍Big Bird: Transformers for Longer Sequences论文详解，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

Big Bird大鸟模型
论文要解决问题
解决方法
- 随机注意力
- 固定窗口注意力
- 全局注意力
- 复杂度分析
实验
- 三种注意力的消融实验。
- 语言模型对比roberta、longformer
- QA问题中对比longformer
- 长文本分类任务
- 文章摘要任务
- 基因语言模型实验
如有问题欢迎指出，参考论文https://arxiv.org/abs/2007.14062

Big Bird大鸟模型

论文要解决问题

如下图，Transformer模型中，注意力中Q、K点乘的内存、速度是序列长度的平方复杂度。长文本时，这个复杂度是不可接受的。一般做法是切成512的块，这种做法损失了块与块之间的信息，例如QA问题中Q必须看到所有A才行，文章摘要中必须看到全部文章。论文提出了一个O(n)复杂度的算法，能够解决以上问题，同时该论文还证明这种方法是图灵完备的。

解决方法

论文提出固定窗口、全局注意力、随机注意力。除了随机注意力外，这些方法几乎和longformer一样。longformer可以参考我的另外一篇文章longformer论文解析。和longformer相比，该文做了大量实验，且证明是图灵完备的。
如下图，横坐标是Q，纵坐标是K，QK的数量都是序列长度，所以是正方形。图中有色面积代表Q*K的数量。图a是随机注意，图b是固定窗口，c是全局注意力，d是三种汇总。
三种注意力都使用稀疏矩阵实现。

随机注意力

对于每个Q，都等概率随机关注r个Key,就像图中A所示。实验中r在200左右。

固定窗口注意力

对于每个Q，都关注相邻的左边w/2个Key，右边w/2个key。这个主要是大多数nlp任务中，都可以发现，相邻文本影响比较大。实验中w在252左右。

全局注意力

有部分特殊的Q关注全部的Key,论文中分两种。一种是BigBird-itc, 也就是在现有的token中选一部分Q关注全部的K。一种是BigBird-etc，增加token，关注全部的token。全局注意力的数量在256左右。

复杂度分析

三种注意力复杂度大概就是（200 + 252 + 256 ）* n的复杂度。我们可以看出，虽然是线性复杂度，但是系数非常大。而且稀疏矩阵的乘法远远低于高度优化的原始attention的dense矩阵乘法。但是太长文本，dense矩阵无法存储也无法计算，也是硬伤。

实验

文章中做了大量的长序列实验，甚至基因序列实验，证明的改方法的有效性。

三种注意力的消融实验。

用512长度的bert-base对比，三种注意力结合使用，基本接近bert-base效果。

语言模型对比roberta、longformer

长文本（4096）的语言模型中，优于roberta,itc低于longformer,etc高于longformer。

QA问题中对比longformer

QA问题是一个长文本分析的任务，每个Q都看到所以的A才能回答比较好。big bird-itc、etc都接近longformer。

长文本分类任务

在长文本分类任务中，Bigbird比robert提高5个点。

文章摘要任务

文章摘要是一个明显的长文本任务，摘要肯定不能只靠前512个token在生成。可以看到big-brid base large模型都明显提升。

基因语言模型实验

基因是明显非常长的片段，是一个非常好的长序列的任务。基因片段也是类似bert的方法，先用sentense piece方法切分成词，然后随机遮住片段（10% 的概率），训练模型预测遮住的片段，使用mlm模型。
实验结果展示，好于bert的效果。

如有问题欢迎指出，参考论文https://arxiv.org/abs/2007.14062

这篇关于Big Bird: Transformers for Longer Sequences论文详解的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/988645。 23002807@qq.com

相关文章

MySQL 主从复制部署及验证(示例详解)

MySQL 主从复制部署及验证(示例详解)

《MySQL主从复制部署及验证(示例详解)》本文介绍MySQL主从复制部署步骤及学校管理数据库创建脚本,包含表结构设计、示例数据插入和查询语句,用于验证主从同步功能,感兴趣的朋友一起看看吧... 目录mysql 主从复制部署指南部署步骤1.环境准备2. 主服务器配置3. 创建复制用户4. 获取主服务器状态5

阅读更多...

一文详解如何使用Java获取PDF页面信息

一文详解如何使用Java获取PDF页面信息

《一文详解如何使用Java获取PDF页面信息》了解PDF页面属性是我们在处理文档、内容提取、打印设置或页面重组等任务时不可或缺的一环,下面我们就来看看如何使用Java语言获取这些信息吧... 目录引言一、安装和引入PDF处理库引入依赖二、获取 PDF 页数三、获取页面尺寸（宽高）四、获取页面旋转角度五、判断

阅读更多...

Spring Boot中的路径变量示例详解

Spring Boot中的路径变量示例详解

《SpringBoot中的路径变量示例详解》SpringBoot中PathVariable通过@PathVariable注解实现URL参数与方法参数绑定,支持多参数接收、类型转换、可选参数、默认值及... 目录一. 基本用法与参数映射1.路径定义2.参数绑定&nhttp://www.chinasem.cnbs

阅读更多...

MySql基本查询之表的增删查改+聚合函数案例详解

MySql基本查询之表的增删查改+聚合函数案例详解

《MySql基本查询之表的增删查改+聚合函数案例详解》本文详解SQL的CURD操作INSERT用于数据插入（单行/多行及冲突处理）,SELECT实现数据检索（列选择、条件过滤、排序分页）,UPDATE... 目录一、Create1.1 单行数据 + 全列插入1.2 多行数据 + 指定列插入1.3 插入否则更

阅读更多...

Redis中Stream详解及应用小结

Redis中Stream详解及应用小结

《Redis中Stream详解及应用小结》RedisStreams是Redis5.0引入的新功能,提供了一种类似于传统消息队列的机制,但具有更高的灵活性和可扩展性,本文给大家介绍Redis中Strea... 目录1. Redis Stream 概述2. Redis Stream 的基本操作2.1. XADD

阅读更多...

Spring StateMachine实现状态机使用示例详解

Spring StateMachine实现状态机使用示例详解

《SpringStateMachine实现状态机使用示例详解》本文介绍SpringStateMachine实现状态机的步骤,包括依赖导入、枚举定义、状态转移规则配置、上下文管理及服务调用示例,重点解... 目录什么是状态机使用示例什么是状态机状态机是计算机科学中的核心建模工具，用于描述对象在其生命

阅读更多...

Java JDK1.8 安装和环境配置教程详解

Java JDK1.8 安装和环境配置教程详解

《JavaJDK1.8安装和环境配置教程详解》文章简要介绍了JDK1.8的安装流程,包括官网下载对应系统版本、安装时选择非系统盘路径、配置JAVA_HOME、CLASSPATH和Path环境变量,... 目录1.下载JDK2.安装JDK3.配置环境变量4.检验JDK官网下载地址：Java Downloads

阅读更多...

使用Python删除Excel中的行列和单元格示例详解

使用Python删除Excel中的行列和单元格示例详解

《使用Python删除Excel中的行列和单元格示例详解》在处理Excel数据时,删除不需要的行、列或单元格是一项常见且必要的操作,本文将使用Python脚本实现对Excel表格的高效自动化处理,感兴... 目录开发环境准备使用 python 删除 Excphpel 表格中的行删除特定行删除空白行删除含指定

阅读更多...

MySQL中的LENGTH()函数用法详解与实例分析

MySQL中的LENGTH()函数用法详解与实例分析

《MySQL中的LENGTH()函数用法详解与实例分析》MySQLLENGTH()函数用于计算字符串的字节长度,区别于CHAR_LENGTH()的字符长度,适用于多字节字符集（如UTF-8）的数据验证... 目录1. LENGTH()函数的基本语法2. LENGTH()函数的返回值2.1 示例1：计算字符串

阅读更多...

Spring Boot spring-boot-maven-plugin 参数配置详解(最新推荐)

Spring Boot spring-boot-maven-plugin 参数配置详解(最新推荐)

《SpringBootspring-boot-maven-plugin参数配置详解(最新推荐)》文章介绍了SpringBootMaven插件的5个核心目标（repackage、run、start... 目录一 spring-boot-maven-plugin 插件的5个Goals二应用场景1 重新打包应用

阅读更多...