本文主要是介绍VECO:对于语言的理解和生成的灵活多变跨语言模型的预训练,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
VECO:对于语言的理解和生成的灵活多变跨语言模型的预训练
本文包括
1.为什么提出VECO
2.怎么训练VECO
3.VECO的结果
4.结论
为什么提出VECO
跨语言训练的背景
从预训练任务的角度
VECO预训练的任务
我们建议将交叉注意模块(query!=key/value)插入Transformer编码器和设计一个交叉注意的MLM任务,“明确地”捕捉语言之间的相互依赖。
背景:预训练的跨语言模型
从模型体系结构的角度看:
VECO微调:灵活的NLU和NLG任务
怎样去训练VECO
encoder-decoder VECO:变量
VECO为每个token构建两种类型的表示:
一套上下文表示记为H,表示因为绿色方块和黄色方块只建立在自注意模块上(即plug-in the
cross-attention module)。
另一套情境表示S,表示为混合颜色块,构建在自注意和交叉注意模块(即plug-in the
cross-attention module)。
预训练任务:自注意的预训练
目标:根据单语语境预测隐藏的单词
预训练任务:自注意+交叉注意的预训练
目标:根据双语语境预测隐藏的单词
VECO的结果
实验装置
NLU任务——XTREME排行榜
NLG 任务— 在 WMT 数据集上的机器翻译
总结
结论
•VECO是一种可变且灵活的跨语言预训练模型,目标是“明确”捕捉语言之间的相互依赖,通过交叉注意模块实现。
•基于灵活的特性,VECO可以初始化两个NLU首选编码器transformer和NLG专用编码器-解码器transformer。
•此外,我们还引入了一个插件微调方法,以鼓励两者之间的融合结合VECO和跨语言下游任务的特点。
•VECO在各种跨语言NLU和NLG任务上实现了持续的改进,拓宽了对预训练的骨干结构和微调在跨语言情景下的方法。
AliceMind:阿里巴巴头脑实验室的编码器-解码器集合
这篇关于VECO:对于语言的理解和生成的灵活多变跨语言模型的预训练的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!