论文慢递2:PLOME: Pre-training with Misspelled Knowledge for Chinese Spelling Correction

本文主要是介绍论文慢递2:PLOME: Pre-training with Misspelled Knowledge for Chinese Spelling Correction,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

  • abstract
  • 方法
    • 模型结构
    • 基于混淆集的掩码策略
    • 嵌入层
    • Encoder层
    • Output层
    • 训练方法
    • finetune

abstract

将拼写错误知识加入到预训练掩码语言模型,使用修正混淆集来代替预测掩码,加入语音级和字形级信息来辅助模型学习纠错;

方法

语音字形纠错

模型结构

将拼音与笔画加入embedding层辅助
请添加图片描述

基于混淆集的掩码策略

相较于bert直接MASK,采用混淆集辅助MASK,通过形近和音近字进行掩码使模型纠错有的放矢;除此之外,为了增加模型鲁棒性,还有概率进行随机掩码;为了防止模型总是倾向于纠错,也有概率维持不变;
请添加图片描述

嵌入层

通过GRU编码字音与字形信息(通过拼音与笔画)
请添加图片描述

Encoder层

基本与BERT相同

Output层

由上文中的模型结构图可知,模型对字的字形与字音均进行了预测;

  • 对于字形预测,预测正确的概率为
    p c ( y i = j ∣ X ) = s o f t m a x ( W c h i + b c ) [ j ] p_c(y_i=j|X)=softmax(W_ch_i+b_c)[j] pc(yi=jX)=softmax(Wchi+bc)[j]
  • 对于拼音预测,预测正确概率为:
    p p ( g i = k ∣ X ) = s o f t m a x ( W p h i + b p ) [ k ] p_p(g_i=k|X)=softmax(W_ph_i+b_p)[k] pp(gi=kX)=softmax(Wphi+bp)[k]

训练方法

分为字形与拼音损失:
L c = − ∑ i = 1 n l o g p c ( y i = l i ∣ X ) L_c=-\sum_{i=1}^n log p_c(y_i=l_i|X) Lc=i=1nlogpc(yi=liX)
L p = − ∑ i = 1 n l o g p p ( g i = r i ∣ X ) L_p=-\sum_{i=1}^n log p_p(g_i=r_i|X) Lp=i=1nlogpp(gi=riX)
训练阶段损失为:
L = L c + L p L=L_c+L_p L=Lc+Lp

finetune

训练参照训练方法,预测阶段采用两概率乘积表示该字最终概率:
p j ( y i = j ∣ X ) = p c ( y i = j ∣ X ) × p p ( g i = j p ∣ X ) p_j(y_i=j|X)=p_c(y_i=j|X)\times p_p(g_i=j^p|X) pj(yi=jX)=pc(yi=jX)×pp(gi=jpX)
最终联合概率分布可以表示为:(其中 I ∈ R n c × n p I \in R^{n_c \times n_p} IRnc×np
p j ( y i ∣ X ) = [ p p ( g i ∣ X ) ⋅ I T ] ⊙ p c ( y i ∣ X ) p_j(y_i|X)=[p_p(g_i|X)\cdot I^T]\odot p_c(y_i|X) pj(yiX)=[pp(giX)IT]pc(yiX)

这篇关于论文慢递2:PLOME: Pre-training with Misspelled Knowledge for Chinese Spelling Correction的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/419907

相关文章

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

2014 Multi-University Training Contest 8小记

1002 计算几何 最大的速度才可能拥有无限的面积。 最大的速度的点 求凸包, 凸包上的点( 注意不是端点 ) 才拥有无限的面积 注意 :  凸包上如果有重点则不满足。 另外最大的速度为0也不行的。 int cmp(double x){if(fabs(x) < 1e-8) return 0 ;if(x > 0) return 1 ;return -1 ;}struct poin

2014 Multi-University Training Contest 7小记

1003   数学 , 先暴力再解方程。 在b进制下是个2 , 3 位数的 大概是10000进制以上 。这部分解方程 2-10000 直接暴力 typedef long long LL ;LL n ;int ok(int b){LL m = n ;int c ;while(m){c = m % b ;if(c == 3 || c == 4 || c == 5 ||

2014 Multi-University Training Contest 6小记

1003  贪心 对于111...10....000 这样的序列,  a 为1的个数,b为0的个数,易得当 x= a / (a + b) 时 f最小。 讲串分成若干段  1..10..0   ,  1..10..0 ,  要满足x非递减 。  对于 xi > xi+1  这样的合并 即可。 const int maxn = 100008 ;struct Node{int

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需