中文拼写纠错(CSC)任务各个数据集汇总与简介

2023-12-04 10:44

本文主要是介绍中文拼写纠错(CSC)任务各个数据集汇总与简介,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 各数据集句子统计情况
  • 各数据集简介
    • CSCD-IME 数据集总结
    • Wang271K 数据集总结
    • SIGHAN
    • ECSpell(多领域)
    • LEMON(多领域)
    • MCSC

各数据集句子统计情况

Wang271KCSCD-IME(All)CSCD-IME(Train)CSCD-IME(Dev)CSCD-IME(Test)CSCD-IME(造的)
句子数量2713294000030000500050002,029,942
正确句子数量320215941621126862697265,316
错误句子数量2710091840613789231423031,764,626
最大句子长度140127127127123127
最小句子长度4111111111
平均句子长度42.5557.4327.3957.4557.6330.82
错字数量3819622022515143255425282,934,108
平均每句错字数量1.40.50.50.50.51.44
平均多少字一错字30113.58113.7112.4711421.3
含“他她它”错字的句子数量242856378113586
含“的地得”错字的句子数量2721384290405439395
“他她它”错字数数量244759399113597
“的地得”错字数量2773399301425639569
连续错字情况1: 346467
2: 17327
3: 387
1: 39925
2: 918
3: 15
4: 2
5: 1
1: 29967
2: 669
3: 12
4: 2
5: 1
1: 4989
2: 124
3: 1
1: 4969
2: 125
3: 2
1: 1,866,997
2: 603,174
3: 29,794
4: 8380
5: 494
SIGHAN(All Train)SIGHAN15(Train)SIGHAN14(Train)SIGHAN13(Train)SIGHAN15(Test)SIGHAN14(Test)SIGHAN13(Test)
句子数量647623393437700110010621000
正确句子数量5548311136055954229
错误句子数量592222563326340541520971
最大句子长度258171258112108150158
最小句子长度35375617
平均句子长度4231.2549.3741.5430.65074.3
错字数量6666254237813437037711224
平均每句错字数量111.10.490.640.7261.224
平均多少字一错字40.7828.7644.8884.7847.968.860.7
含“他她它”错字的句子数量15426128010271
含“的地得”错字的句子数量6022013965498710
“他她它”错字数数量15726131011311
“的地得”错字数量6082014025499411
连续错字情况1: 6223
2: 453
3: 25
4: 4
1: 2197
2: 194
3: 8
4: 4
1: 3325
2: 258
3: 17
1: 701
2: 1
1: 1139
2: 58
4: 1
3: 1
1: 1193
2: 47
3: 6
4: 2
1: 1249
2: 2

多领域CSC数据集

EC_LawEC_MedEC_Odwlemon_carlemon_enclemon_gamlemon_meclemon_newlemon_novlemon_cot
句子数量2460350022283245+1653272+162393+71942+1485887+56000993+33
正确句子数量1146180197116681682245103729462986552
错误句子数量1314169912571577159014890529413014441
最大句子长度1201271611983204107725634670
最小句子长度12111845203220
平均句子长度30.550.141.143.440.031.539.225.236.240.1
错字数量20712616198519101786164103232603415486
平均每句错字数量0.840.750.890.590.550.420.530.550.570.49
平均多少字一错字36.267.146.273.873.275.573.745.463.782.0
含“他她它”错字的句子数量10176220160
含“的地得”错字的句子数量75105845143904311
“他她它”错字数数量10186220160
“的地得”错字数量75116047174204311

有些数据集中存在异常样本(src和tgt长度不一致),因此使用+X的方式表示


医疗领域数据集

多领域CSC数据集

MCSC_TrainMCSC_DevMCSC_Test
句子数量157193+11965219650
正确句子数量7859298269825
错误句子数量7860198269825
最大句子长度524245
最小句子长度222
平均句子长度10.910.910.9
错字数量1465031835718286
平均每句错字数量0.930.930.93
平均多少字一错字11.711.711.7
含“他她它”错字的句子数量6484
含“的地得”错字的句子数量1561614
“他她它”错字数数量6484
“的地得”错字数量1561614

各数据集简介

CSCD-IME 数据集总结

论文地址: https://arxiv.org/pdf/2211.08788.pdf

论文代码: https://github.com/nghuyong/cscd-ime

论文代码有两个作用:

  1. 用于生成违数据集
  2. 对预测结果进行评价

作者知乎: https://zhuanlan.zhihu.com/p/586333153

数据集年份:2022-11

CSCD-IME全称:Chinese Spelling Correction Dataset for errors generated by pinyin IME

CSCD-IME数据集总结:

  1. 数据集只关注“拼音输入法”导致的错误
  2. 数据来源:经过认证的新闻媒体机构在微博上发布的博文(例如人民日报)
  3. 训练集:3w,验证集5k,测试集3k。均为人工标注
  4. 模拟“拼音输入法”导致的错误,构建了200w个违数据集。
  5. 该数据集会包含更多的“词”错误,例如:“鸡你太美”->“鸡你钛镁”,整个“钛镁”都是错的,这也符合实际情况,但这种纠错更难。

数据集链接:百度网盘 ,

数据集文件夹介绍:

--cscd-ime--data--cscd-ime--dev.tsv	# 验证集,5k条数据--test.tsv	# 测试集,5k条数据--train.tsv	# 训练集,3w条数据--all.tsv  # 全集,3w+5k+5k=4w条数据--lcsts-ime-2m--lcsts-ime-2m.tsv	# 200w条违数据--resource	# 生成违数据时要用的文件--char_4_gram.bin--pinyin_distance_matrix.pkl--predicts--bert_cscd.tsv  # bert的预测结果--bert_cscd_report.txt	# bert预测报告

Wang271K 数据集总结

论文地址: https://aclanthology.org/D18-1273/

论文代码: https://github.com/wdimmy/Automatic-Corpus-Generation

论文代码的作用:

  1. 用于生成违数据集

数据集年份:2018-10

Wang271K数据集总结:

  1. 该数据集主要用于训练模型,通常不作为测试集使用。
  2. 根据“形近似”和“音近似”两个方面替换一部分字符
  3. “形近似”错字构造方式:文本转图片->对部分字图片加噪音->使用OCR识别->得到形近似错字。
  4. “音近似”错字构造方式:句子转语音->语音转句子。
  5. 句子来源:人民日报网站

SIGHAN

数据集年份:2013,2014,2015

SIGHAN数据集总结:

  1. 外国人学中文时写的句子,内容偏生活

SIGHAN测试集的缺点:

  1. 不符合实际应用场景。因为是老外学中文写的语句,所以和实际中文拼写纠错的场景不一致。
  2. 语句不通顺,毕竟不是中国人写的。
  3. 大量的错误数据。对,即使是测试集,也有大量的错误数据。比如漏字、多字和错字的情况。
  4. 大量的重复数据。总共就1100句,很多句子都是相同的错误,比如“奴(女)生”就在好几句出现了。
  5. 测试集过少
  6. 从繁体翻译过来后,很多词汇或字不符合大陆习惯。

ECSpell(多领域)

论文地址:https://arxiv.org/pdf/2203.10929.pdf

论文代码:https://github.com/Aopolin-Lv/ECSpell

论文年份:2022-03

数据集地址:https://github.com/Aopolin-Lv/ECSpell/tree/main/Data

该作者提出了不同领域的CSC数据集,分布如下:

  • EC_Law:法律领域
  • EC_Med:医疗领域(medical treatment)
  • EC_Odw:官方文章写作(official document writing)

LEMON(多领域)

论文地址:https://arxiv.org/pdf/2305.17721.pdf

论文代码:https://github.com/gingasan/lemon

论文年份:2023-05

数据集链接:https://github.com/gingasan/lemon/tree/main/lemon_v2

该论文提出了6个领域的数据集:

  • lemon_car:汽车
  • lemon_enc:百科(encyclopedia)
  • lemon_gam:游戏(game)
  • lemon_mec:医疗照护(emdical care)
  • lemon_new:新闻(news)
  • lemon_nov:小说(novel)
  • lemon_cot:合同(contract)

MCSC

论文地址:https://arxiv.org/pdf/2210.11720.pdf

论文代码:https://github.com/yzhihao/MCSCSet

论文年份:2022-10

数据集链接:https://github.com/yzhihao/MCSCSet/tree/main/data/mcsc_benchmark_dataset

数据集特点:

  1. 医疗领域数据集
  2. 全是医学专家的人工标记
  3. 数据来源为腾讯医典
  4. 主要是一些医疗问题,例如“糖尿病如何治疗?”

这篇关于中文拼写纠错(CSC)任务各个数据集汇总与简介的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/453174

相关文章

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

Spring定时任务只执行一次的原因分析与解决方案

《Spring定时任务只执行一次的原因分析与解决方案》在使用Spring的@Scheduled定时任务时,你是否遇到过任务只执行一次,后续不再触发的情况?这种情况可能由多种原因导致,如未启用调度、线程... 目录1. 问题背景2. Spring定时任务的基本用法3. 为什么定时任务只执行一次?3.1 未启用

Redis 中的热点键和数据倾斜示例详解

《Redis中的热点键和数据倾斜示例详解》热点键是指在Redis中被频繁访问的特定键,这些键由于其高访问频率,可能导致Redis服务器的性能问题,尤其是在高并发场景下,本文给大家介绍Redis中的热... 目录Redis 中的热点键和数据倾斜热点键(Hot Key)定义特点应对策略示例数据倾斜(Data S

Python实现将MySQL中所有表的数据都导出为CSV文件并压缩

《Python实现将MySQL中所有表的数据都导出为CSV文件并压缩》这篇文章主要为大家详细介绍了如何使用Python将MySQL数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到... python将mysql数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到另一个

如何使用Python实现一个简单的window任务管理器

《如何使用Python实现一个简单的window任务管理器》这篇文章主要为大家详细介绍了如何使用Python实现一个简单的window任务管理器,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起... 任务管理器效果图完整代码import tkinter as tkfrom tkinter i

SpringBoot整合jasypt实现重要数据加密

《SpringBoot整合jasypt实现重要数据加密》Jasypt是一个专注于简化Java加密操作的开源工具,:本文主要介绍详细介绍了如何使用jasypt实现重要数据加密,感兴趣的小伙伴可... 目录jasypt简介 jasypt的优点SpringBoot使用jasypt创建mapper接口配置文件加密