《Spelling Error Correction with Soft-Masked BERT》阅读记录

本文主要是介绍《Spelling Error Correction with Soft-Masked BERT》阅读记录，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

To be published at ACL 2020. 2020.5.15

链接：https://arxiv.org/abs/2005.07421

摘要

彼时CSC的SOTA方法：在语言表示模型BERT的基础上，在句子的每个位置从候选词列表中选择一个字符进行纠正(包括不纠正)。

但这一方法能力不是最强悍的，因为BERT本身没有足够的能力来检测每个位置是否有错误，显然是由于使用掩码语言建模对其进行预训练的方式。

本文工作：提出了一个由错误检测网络和基于BERT纠正错误网络的神经网络结构。

Soft-masked BERT 也可用于其他语言。

方法性能优于基线。

提出了一种新的用于拼写错误校正的神经网络结构（主要是CSC上）——Soft-Masked BERT。

软掩蔽技术是通用的，并且在其他检测-校正任务中可能有用。

在两个数据集上的实验结果表明：软屏蔽BERT明显优于仅利用BERT的现有方法。

计划将Soft-Masked BERT扩展到其他问题，如语法错误纠正，并探索实现检测网络的其他可能性。

在词级或字符级上，改正文章中的拼写错误 (Yu and Li, 2014; Y u et al., 2014; Zhang et al., 2015; Wang et al., 2018b; Hong et al., 2019; Wang et al., 2019)。

这篇文章在字符（character）级别上考虑中文拼写错误问题。

采用机器学习和深度学习 (Yu et al., 2014; Tseng et al., 2015; Wang et al., 2018b).
- Zhang et al. (2015) 提供了一个CSC的统一框架：错误检测、候选词生成、最终候选选择（改错）使用传统机器学习。
- Wang et al. (2019) 提供带

这篇关于《Spelling Error Correction with Soft-Masked BERT》阅读记录的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！