ALBERT: 自监督语言表示的轻量级BERT

2023-12-25 05:08

本文主要是介绍ALBERT: 自监督语言表示的轻量级BERT,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 引言
    • 词向量因式分解(Factorized embedding parameterization)
    • 跨层参数共享(Cross-layer parameter sharing)
    • 内部句子一致性损失(Inter-sentence coherence loss)

【Reference】
ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS


引言

预训练模型使得一些缺乏训练数据的下游任务表现良好,大力出奇迹,大型网络是获得SOTA性能的关键,但随着模型大小的增加,内存占用和训练时间都会增加。那么是否有比大型模型更简单、性能更好的模型?

ALBERT使用两种缩减参数技术:词向量矩阵分解、跨层参数共享。参数缩减可看做为正则化技术,并未严重降低模型性能,提升了模型泛化能力。与BERT-Large模型使用一样的配置,参数量下降18x,速度提升1.7x

ALBERT引入句序预测自监督方法,关注句子内部的一致性,我们通过实验比较了句序预测(Sentence-Order Prediction,SOP)任务和预测下一句是否被交换(Next Sentence Prediction,NSP)任务损失的变化,发现SOP任务更具有挑战,而且SOP预训练的模型在下游任务中更有用。

与BERT结构类似,ALBERT使用Transformer Encoder和GELU非线性激活函数,相比BERT模型的性能如下:

在这里插入图片描述

词向量因式分解(Factorized embedding parameterization)

在BERT与其改进模型XLNet和RoBERTa中,词嵌入维度 E E E和隐藏层维度 H H H相等。词嵌入旨在学习语境无关表示,而隐藏层旨在学习语境相关表示。因此,为更有效里面全部模型参数,我们希望能够解开 E E E H H H绑定,使得 H ≫ E H\gg E HE
通常情况下,模型输入词典大小 V V V很大,如果 E ≡ V E\equiv V EV,当我们需要增加 H H H的大小时,意味着也要增加 E E E的大小,模型参数将会剧增。因此,我们通过将词嵌入矩阵因式分解为两个小矩阵,当 H ≫ E H\gg E HE时,参数量明显降低:
O ( V × H ) → O ( V × E + E × H ) O(V\times H)\quad \to\quad O(V\times E + E\times H) O(V×H)O(V×E+E×H)

在这里插入图片描述

跨层参数共享(Cross-layer parameter sharing)

有多重参数方式,如共享FFN参数、共享注意力层参数等,ALBERT默认共享所有跨层参数。
在这里插入图片描述

内部句子一致性损失(Inter-sentence coherence loss)

BERT的NSP任务用于提高下游如自然语言推理任务,我们猜想NSP主要无效的原因是,NSP任务倾向于主题预测,相比MLM(Mask Language Modeling)任务过于简单。ALBERT使用SOP任务预测句序,以避免进行主题预测,SOP任务使用同一上下文的两个连续句子作为正例,跌倒顺序的句子作为负例,这有助于模型学习细粒度特性。
在这里插入图片描述

这篇关于ALBERT: 自监督语言表示的轻量级BERT的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/534343

相关文章

深入理解Go语言中二维切片的使用

《深入理解Go语言中二维切片的使用》本文深入讲解了Go语言中二维切片的概念与应用,用于表示矩阵、表格等二维数据结构,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来一起学习学习吧... 目录引言二维切片的基本概念定义创建二维切片二维切片的操作访问元素修改元素遍历二维切片二维切片的动态调整追加行动态

Go语言中make和new的区别及说明

《Go语言中make和new的区别及说明》:本文主要介绍Go语言中make和new的区别及说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1 概述2 new 函数2.1 功能2.2 语法2.3 初始化案例3 make 函数3.1 功能3.2 语法3.3 初始化

Go语言中nil判断的注意事项(最新推荐)

《Go语言中nil判断的注意事项(最新推荐)》本文给大家介绍Go语言中nil判断的注意事项,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录1.接口变量的特殊行为2.nil的合法类型3.nil值的实用行为4.自定义类型与nil5.反射判断nil6.函数返回的

Go语言数据库编程GORM 的基本使用详解

《Go语言数据库编程GORM的基本使用详解》GORM是Go语言流行的ORM框架,封装database/sql,支持自动迁移、关联、事务等,提供CRUD、条件查询、钩子函数、日志等功能,简化数据库操作... 目录一、安装与初始化1. 安装 GORM 及数据库驱动2. 建立数据库连接二、定义模型结构体三、自动迁

Go语言代码格式化的技巧分享

《Go语言代码格式化的技巧分享》在Go语言的开发过程中,代码格式化是一个看似细微却至关重要的环节,良好的代码格式化不仅能提升代码的可读性,还能促进团队协作,减少因代码风格差异引发的问题,Go在代码格式... 目录一、Go 语言代码格式化的重要性二、Go 语言代码格式化工具:gofmt 与 go fmt(一)

LiteFlow轻量级工作流引擎使用示例详解

《LiteFlow轻量级工作流引擎使用示例详解》:本文主要介绍LiteFlow是一个灵活、简洁且轻量的工作流引擎,适合用于中小型项目和微服务架构中的流程编排,本文给大家介绍LiteFlow轻量级工... 目录1. LiteFlow 主要特点2. 工作流定义方式3. LiteFlow 流程示例4. LiteF

SpringBoot集成LiteFlow实现轻量级工作流引擎的详细过程

《SpringBoot集成LiteFlow实现轻量级工作流引擎的详细过程》LiteFlow是一款专注于逻辑驱动流程编排的轻量级框架,它以组件化方式快速构建和执行业务流程,有效解耦复杂业务逻辑,下面给大... 目录一、基础概念1.1 组件(Component)1.2 规则(Rule)1.3 上下文(Conte

Go语言中泄漏缓冲区的问题解决

《Go语言中泄漏缓冲区的问题解决》缓冲区是一种常见的数据结构,常被用于在不同的并发单元之间传递数据,然而,若缓冲区使用不当,就可能引发泄漏缓冲区问题,本文就来介绍一下问题的解决,感兴趣的可以了解一下... 目录引言泄漏缓冲区的基本概念代码示例:泄漏缓冲区的产生项目场景:Web 服务器中的请求缓冲场景描述代码

Go语言如何判断两张图片的相似度

《Go语言如何判断两张图片的相似度》这篇文章主要为大家详细介绍了Go语言如何中实现判断两张图片的相似度的两种方法,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 在介绍技术细节前,我们先来看看图片对比在哪些场景下可以用得到:图片去重:自动删除重复图片,为存储空间"瘦身"。想象你是一个

Go语言中Recover机制的使用

《Go语言中Recover机制的使用》Go语言的recover机制通过defer函数捕获panic,实现异常恢复与程序稳定性,具有一定的参考价值,感兴趣的可以了解一下... 目录引言Recover 的基本概念基本代码示例简单的 Recover 示例嵌套函数中的 Recover项目场景中的应用Web 服务器中