猛料专题

高质量新闻数据集OpenNewsArchive:880万篇主流新闻报道,国产大模型开源数据又添猛料

在构建国产大语言模型的道路上,高质量新闻是不可或缺的重要语料之一。这类语料集准确性、逻辑性、时效性于一体,同时包含丰富的事实知识,可以大幅提升模型的文本生成质量、词汇表达能力、事件理解分析能力以及时序内容的适应性和预测能力,使其在现实世界的应用中更加准确和可靠。 近日 ,为了更好地满足大模型研发的数据需求,大模型语料数据联盟开源了大规模、高质量新闻数据集——开放新闻库数据集(OpenNewsAr