Re72：读论文 XLM Cross-lingual Language Model Pretraining

本文主要是介绍Re72：读论文 XLM Cross-lingual Language Model Pretraining，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

诸神缄默不语-个人CSDN博文目录
诸神缄默不语的论文阅读笔记和分类

论文名：Cross-lingual Language Model Pretraining
模型简称：XLM

ArXiv地址：https://arxiv.org/abs/1901.07291

这是2019年NeurIPS的论文，主要做到就是跨语言BERT。主要创新点就是做了多语言的BERT预训练，改了一下放数据的方式（TLM，放平行语料做预训练）

文章目录

1. 研究方法
- 1. 词表
- 2. 预训练目标
2. 实验结果

1. 研究方法

1. 词表

所有语言共用一套BPE词表。

2. 预训练目标

无监督单语言预训练：
Causal Language Modeling (CLM)：预测未来内容。为了简便起见，删除了每个batch没有上下文的开头词语。
Masked Language Modeling (MLM)：完形填空。用的是text streams而不是sentence pair（意思就是可以咔咔塞一大段，但句子长度相似），对标点符号用多项分布抽样

在有平行语料条件下的监督多语言预训练：
Translation Language Modeling (TLM)：MLM加强版，用平行语料来代替text streams
在这里插入图片描述