中文拼写纠错(CSC)任务各个数据集汇总与简介

2023-12-04 10:44

本文主要是介绍中文拼写纠错(CSC)任务各个数据集汇总与简介,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 各数据集句子统计情况
  • 各数据集简介
    • CSCD-IME 数据集总结
    • Wang271K 数据集总结
    • SIGHAN
    • ECSpell(多领域)
    • LEMON(多领域)
    • MCSC

各数据集句子统计情况

Wang271KCSCD-IME(All)CSCD-IME(Train)CSCD-IME(Dev)CSCD-IME(Test)CSCD-IME(造的)
句子数量2713294000030000500050002,029,942
正确句子数量320215941621126862697265,316
错误句子数量2710091840613789231423031,764,626
最大句子长度140127127127123127
最小句子长度4111111111
平均句子长度42.5557.4327.3957.4557.6330.82
错字数量3819622022515143255425282,934,108
平均每句错字数量1.40.50.50.50.51.44
平均多少字一错字30113.58113.7112.4711421.3
含“他她它”错字的句子数量242856378113586
含“的地得”错字的句子数量2721384290405439395
“他她它”错字数数量244759399113597
“的地得”错字数量2773399301425639569
连续错字情况1: 346467
2: 17327
3: 387
1: 39925
2: 918
3: 15
4: 2
5: 1
1: 29967
2: 669
3: 12
4: 2
5: 1
1: 4989
2: 124
3: 1
1: 4969
2: 125
3: 2
1: 1,866,997
2: 603,174
3: 29,794
4: 8380
5: 494
SIGHAN(All Train)SIGHAN15(Train)SIGHAN14(Train)SIGHAN13(Train)SIGHAN15(Test)SIGHAN14(Test)SIGHAN13(Test)
句子数量647623393437700110010621000
正确句子数量5548311136055954229
错误句子数量592222563326340541520971
最大句子长度258171258112108150158
最小句子长度35375617
平均句子长度4231.2549.3741.5430.65074.3
错字数量6666254237813437037711224
平均每句错字数量111.10.490.640.7261.224
平均多少字一错字40.7828.7644.8884.7847.968.860.7
含“他她它”错字的句子数量15426128010271
含“的地得”错字的句子数量6022013965498710
“他她它”错字数数量15726131011311
“的地得”错字数量6082014025499411
连续错字情况1: 6223
2: 453
3: 25
4: 4
1: 2197
2: 194
3: 8
4: 4
1: 3325
2: 258
3: 17
1: 701
2: 1
1: 1139
2: 58
4: 1
3: 1
1: 1193
2: 47
3: 6
4: 2
1: 1249
2: 2

多领域CSC数据集

EC_LawEC_MedEC_Odwlemon_carlemon_enclemon_gamlemon_meclemon_newlemon_novlemon_cot
句子数量2460350022283245+1653272+162393+71942+1485887+56000993+33
正确句子数量1146180197116681682245103729462986552
错误句子数量1314169912571577159014890529413014441
最大句子长度1201271611983204107725634670
最小句子长度12111845203220
平均句子长度30.550.141.143.440.031.539.225.236.240.1
错字数量20712616198519101786164103232603415486
平均每句错字数量0.840.750.890.590.550.420.530.550.570.49
平均多少字一错字36.267.146.273.873.275.573.745.463.782.0
含“他她它”错字的句子数量10176220160
含“的地得”错字的句子数量75105845143904311
“他她它”错字数数量10186220160
“的地得”错字数量75116047174204311

有些数据集中存在异常样本(src和tgt长度不一致),因此使用+X的方式表示


医疗领域数据集

多领域CSC数据集

MCSC_TrainMCSC_DevMCSC_Test
句子数量157193+11965219650
正确句子数量7859298269825
错误句子数量7860198269825
最大句子长度524245
最小句子长度222
平均句子长度10.910.910.9
错字数量1465031835718286
平均每句错字数量0.930.930.93
平均多少字一错字11.711.711.7
含“他她它”错字的句子数量6484
含“的地得”错字的句子数量1561614
“他她它”错字数数量6484
“的地得”错字数量1561614

各数据集简介

CSCD-IME 数据集总结

论文地址: https://arxiv.org/pdf/2211.08788.pdf

论文代码: https://github.com/nghuyong/cscd-ime

论文代码有两个作用:

  1. 用于生成违数据集
  2. 对预测结果进行评价

作者知乎: https://zhuanlan.zhihu.com/p/586333153

数据集年份:2022-11

CSCD-IME全称:Chinese Spelling Correction Dataset for errors generated by pinyin IME

CSCD-IME数据集总结:

  1. 数据集只关注“拼音输入法”导致的错误
  2. 数据来源:经过认证的新闻媒体机构在微博上发布的博文(例如人民日报)
  3. 训练集:3w,验证集5k,测试集3k。均为人工标注
  4. 模拟“拼音输入法”导致的错误,构建了200w个违数据集。
  5. 该数据集会包含更多的“词”错误,例如:“鸡你太美”->“鸡你钛镁”,整个“钛镁”都是错的,这也符合实际情况,但这种纠错更难。

数据集链接:百度网盘 ,

数据集文件夹介绍:

--cscd-ime--data--cscd-ime--dev.tsv	# 验证集,5k条数据--test.tsv	# 测试集,5k条数据--train.tsv	# 训练集,3w条数据--all.tsv  # 全集,3w+5k+5k=4w条数据--lcsts-ime-2m--lcsts-ime-2m.tsv	# 200w条违数据--resource	# 生成违数据时要用的文件--char_4_gram.bin--pinyin_distance_matrix.pkl--predicts--bert_cscd.tsv  # bert的预测结果--bert_cscd_report.txt	# bert预测报告

Wang271K 数据集总结

论文地址: https://aclanthology.org/D18-1273/

论文代码: https://github.com/wdimmy/Automatic-Corpus-Generation

论文代码的作用:

  1. 用于生成违数据集

数据集年份:2018-10

Wang271K数据集总结:

  1. 该数据集主要用于训练模型,通常不作为测试集使用。
  2. 根据“形近似”和“音近似”两个方面替换一部分字符
  3. “形近似”错字构造方式:文本转图片->对部分字图片加噪音->使用OCR识别->得到形近似错字。
  4. “音近似”错字构造方式:句子转语音->语音转句子。
  5. 句子来源:人民日报网站

SIGHAN

数据集年份:2013,2014,2015

SIGHAN数据集总结:

  1. 外国人学中文时写的句子,内容偏生活

SIGHAN测试集的缺点:

  1. 不符合实际应用场景。因为是老外学中文写的语句,所以和实际中文拼写纠错的场景不一致。
  2. 语句不通顺,毕竟不是中国人写的。
  3. 大量的错误数据。对,即使是测试集,也有大量的错误数据。比如漏字、多字和错字的情况。
  4. 大量的重复数据。总共就1100句,很多句子都是相同的错误,比如“奴(女)生”就在好几句出现了。
  5. 测试集过少
  6. 从繁体翻译过来后,很多词汇或字不符合大陆习惯。

ECSpell(多领域)

论文地址:https://arxiv.org/pdf/2203.10929.pdf

论文代码:https://github.com/Aopolin-Lv/ECSpell

论文年份:2022-03

数据集地址:https://github.com/Aopolin-Lv/ECSpell/tree/main/Data

该作者提出了不同领域的CSC数据集,分布如下:

  • EC_Law:法律领域
  • EC_Med:医疗领域(medical treatment)
  • EC_Odw:官方文章写作(official document writing)

LEMON(多领域)

论文地址:https://arxiv.org/pdf/2305.17721.pdf

论文代码:https://github.com/gingasan/lemon

论文年份:2023-05

数据集链接:https://github.com/gingasan/lemon/tree/main/lemon_v2

该论文提出了6个领域的数据集:

  • lemon_car:汽车
  • lemon_enc:百科(encyclopedia)
  • lemon_gam:游戏(game)
  • lemon_mec:医疗照护(emdical care)
  • lemon_new:新闻(news)
  • lemon_nov:小说(novel)
  • lemon_cot:合同(contract)

MCSC

论文地址:https://arxiv.org/pdf/2210.11720.pdf

论文代码:https://github.com/yzhihao/MCSCSet

论文年份:2022-10

数据集链接:https://github.com/yzhihao/MCSCSet/tree/main/data/mcsc_benchmark_dataset

数据集特点:

  1. 医疗领域数据集
  2. 全是医学专家的人工标记
  3. 数据来源为腾讯医典
  4. 主要是一些医疗问题,例如“糖尿病如何治疗?”

这篇关于中文拼写纠错(CSC)任务各个数据集汇总与简介的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/453174

相关文章

Python将大量遥感数据的值缩放指定倍数的方法(推荐)

《Python将大量遥感数据的值缩放指定倍数的方法(推荐)》本文介绍基于Python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处理,并将所得处理后数据保存为新的遥感影像... 本文介绍基于python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处

使用MongoDB进行数据存储的操作流程

《使用MongoDB进行数据存储的操作流程》在现代应用开发中,数据存储是一个至关重要的部分,随着数据量的增大和复杂性的增加,传统的关系型数据库有时难以应对高并发和大数据量的处理需求,MongoDB作为... 目录什么是MongoDB?MongoDB的优势使用MongoDB进行数据存储1. 安装MongoDB

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP(CommunicatingSequentialProcesses,通信顺序进程)并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe

Python MySQL如何通过Binlog获取变更记录恢复数据

《PythonMySQL如何通过Binlog获取变更记录恢复数据》本文介绍了如何使用Python和pymysqlreplication库通过MySQL的二进制日志(Binlog)获取数据库的变更记录... 目录python mysql通过Binlog获取变更记录恢复数据1.安装pymysqlreplicat

Linux使用dd命令来复制和转换数据的操作方法

《Linux使用dd命令来复制和转换数据的操作方法》Linux中的dd命令是一个功能强大的数据复制和转换实用程序,它以较低级别运行,通常用于创建可启动的USB驱动器、克隆磁盘和生成随机数据等任务,本文... 目录简介功能和能力语法常用选项示例用法基础用法创建可启动www.chinasem.cn的 USB 驱动

Go语言实现将中文转化为拼音功能

《Go语言实现将中文转化为拼音功能》这篇文章主要为大家详细介绍了Go语言中如何实现将中文转化为拼音功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 有这么一个需求:新用户入职 创建一系列账号比较麻烦,打算通过接口传入姓名进行初始化。想把姓名转化成拼音。因为有些账号即需要中文也需要英

Oracle数据库使用 listagg去重删除重复数据的方法汇总

《Oracle数据库使用listagg去重删除重复数据的方法汇总》文章介绍了在Oracle数据库中使用LISTAGG和XMLAGG函数进行字符串聚合并去重的方法,包括去重聚合、使用XML解析和CLO... 目录案例表第一种:使用wm_concat() + distinct去重聚合第二种:使用listagg,

Java中的Opencv简介与开发环境部署方法

《Java中的Opencv简介与开发环境部署方法》OpenCV是一个开源的计算机视觉和图像处理库,提供了丰富的图像处理算法和工具,它支持多种图像处理和计算机视觉算法,可以用于物体识别与跟踪、图像分割与... 目录1.Opencv简介Opencv的应用2.Java使用OpenCV进行图像操作opencv安装j

Python实现将实体类列表数据导出到Excel文件

《Python实现将实体类列表数据导出到Excel文件》在数据处理和报告生成中,将实体类的列表数据导出到Excel文件是一项常见任务,Python提供了多种库来实现这一目标,下面就来跟随小编一起学习一... 目录一、环境准备二、定义实体类三、创建实体类列表四、将实体类列表转换为DataFrame五、导出Da

Python Invoke自动化任务库的使用

《PythonInvoke自动化任务库的使用》Invoke是一个强大的Python库,用于编写自动化脚本,本文就来介绍一下PythonInvoke自动化任务库的使用,具有一定的参考价值,感兴趣的可以... 目录什么是 Invoke?如何安装 Invoke?Invoke 基础1. 运行测试2. 构建文档3.