本文主要是介绍中文词性标注数据集,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
中文词性标注数据集
1. Chinese Treebank X.0 (CTBX)
-
数据集简介:
由LDC构建的中文树库。CTBX中X表示版本,随着版本数据规模扩大,以及部分标准修正。CTB1标注数据来自新华日报;CTB2对CTB1进行部分纠正以及进行发布;CTB4标注数据来自新华日报、香港政府新闻处发布的新闻、以及台湾Sinorama magazine;CTB5标注数据来源同CTB4,对规模进行扩大;CTB6增加了来自广播节目的标注数据;CTB7增加了广播新闻、微博数据、以及广播电视谈话类节目数据;CTB8标注数据来源新闻数据、新闻杂志、广播新闻、广播谈话节目、微博、以及网页数据;CTB9标注数据来自新闻数据、新闻杂志、广播新闻、广播谈话节目、微博、论坛、聊天对话、电话数据。
-
数据集详情:
名称 规模 创建日期 作者 单位 论文 下载 评测 CTB1 100000个词,325篇文章 2000年 – LDC 链接 未发布 N/A CTB2 100000个词,325篇文章 2001年 Martha Palmer, et al. LDC 链接 会员下载 N/A CTB4 404156词,664663个汉字,15162个句子,838个文件 2004年 Martha Palmer, et al. LDC N/A 会员下载 N/A CTB5 507222词,824983个汉字,18782个句子,890个文件 2005年 Martha Palmer, et al. LDC 链接 会员下载 N/A CTB6 781351词,1285149个汉字,28295个句子,2036个文件 2007年 Martha Palmer, et al. LDC N/A 会员下载 N/A CTB7 1196329词,1931381个汉字,51447个句子,2448个文件 2010年 Nianwen Xue, et al. LDC 链接 会员下载 N/A CTB8 1620561词,2589848个汉字,71369个句子,3007个文件 2013年 Nianwen Xue, et al. LDC N/A 会员下载 N/A CTB9 2084387词,3247331个汉字,132076个句子,3726个文件 2016年 Nianwen Xue, et al. LDC N/A 会员下载 N/A -
基于该数据集发表的相关论文:
- Chen, Xinchi, Xipeng Qiu, and Xuanjing Huang. “A feature-enriched neural model for joint Chinese word segmentation and part-of-speech tagging.” arXiv preprint arXiv:1611.05384 (2016).
- Diao, Shizhe, et al. “ZEN: Pre-training Chinese Text Encoder Enhanced by N-gram Representations.” arXiv preprint arXiv:1911.00720 (2019).
这篇关于中文词性标注数据集的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!