本文主要是介绍NLP-机器翻译:数据集介绍及预处理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
- 1.8 million的文章
- 超过650k手动编写的文章摘要
- 超过1.5 million 的人工标记的文章,标记包括 人物,地点,组织,标题,主题
- 超过275k使用算法生成标记的文章
- 用于解析xml文件的java工具
语料库中有650k个手动编写的文章摘要,这个可以用于文档摘要生成算法的评估,
参考资料:
New York Times Corpus 介绍 (未完待续)
The New York Times Annotated Corpus
这篇关于NLP-机器翻译:数据集介绍及预处理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!