北京人工智能数据运营平台发布,并开源大规模数据集

2024-06-15 03:36

本文主要是介绍北京人工智能数据运营平台发布,并开源大规模数据集,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

6月14日,AI行业顶级盛会2024北京智源大会正式拉开帷幕。作为大会的重要组成部分,智源大会“人工智能+数据新基建”论坛同步召开。本论坛由北京智源人工智能研究院主办,中国互联网协会人工智能工委会和中国移动研究院承办。本次论坛邀请到来自中国互联网协会、中国移动通信集团有限公司、中国电子云、北京大学、复旦大学、南方电网、中国航信、国双科技等单位和学校的领导和专家,共同探讨面向人工智能+的数据汇聚、生产、挖掘、交易、流通的新路径,探索关于行业数据建设和模型训练、数据应用平台建设、数据智慧运营的新思路。同时,大会现场发布了“北京人工智能数据运营平台”(包括平台上线、重磅数据集开源和数据工具FlagData3.0),并启动了“行业数据集—场景应用创新计划”,为千行百业大模型落地构筑重要的数据基础。

构建平台能力,创新运营模式

北京人工智能数据运营平台:支持三种数据使用模式

本次论坛上,智源研究院联手京能数字产业有限公司(下简称京能数产)发布了北京人工智能数据运营平台。北京人工智能数据运营平台是在国家发展改革委、国家数据局指导下,北京市发展改革委主导,市委网信办、市科委、市经信局、海淀区政府、中国网络空间安全协会人工智能安全治理专委会等单位支持推动,由智源研究院牵头与京能数产等单位共建。数据平台实现数据的汇聚管理、处理加工,并提供多种模态的数据标注支持,支持多种数据汇聚和使用形式,不断扩充数据规模,为大模型行业发展提供坚实的数据支撑。

目前,数据运营平台支持开源开放、积分共享、数算一体三种数据运营模式。“开源开放”模式允许用户在遵守使用协议的前提下自由下载使用。“积分共享”模式面向数据工作组内的成员,根据数据贡献实行积分制,即成员单位贡献数据,按照计分标准获取相应积分,同时获得共享数据的权益。“数算一体”模式针对高价值数据,仅在平台上进行数据加工、训练使用,保证数据不出安全域。

开源超大规模高质量数据集

1、全球最大的多行业中英双语数据集IndustryCorpus 1.0,

本次论坛上,智源研究院发布全球最大的多行业中英双语数据集IndustryCorpus 1.0 ,大幅度提升了全球开源行业数据集的数据量,为大模型的行业落地提供了强有力的保障。同时,智源选取医疗行业数据集,完成了示范模型训练,取得了优异的模型行业能力提升,为行业模型训练提供高质量范例和参考。

当前,大模型在行业应用时面临着核心的挑战——海量、优质的行业数据集严重匮乏。行业数据具有特殊性、稀缺性的特点。特殊性是由于其包含了领域特有的知识、术语、规则、流程和逻辑,这些特性往往难以在通用数据集中充分覆盖。稀缺性是指行业数据严重短缺。当前已知的所有开源行业数据集(文本类)仅有约1.2TB,远远无法满足千行百业的模型需求。因此,智源研究院在过去半年不断积累,致力于打造多行业训练数据集IndustryCorpus。

IndustryCorpus 1.0数据集包含3.4TB开源的行业预训练数据(中文1TB,英文2.4TB),0.9TB的非开源定向申请的行业预训练数据,以及医疗和教育两个领域的开源高质量指令微调数据共61.3万条。IndustryCorpus 1.0的发布,大幅提升了全球开源行业数据集的数据量和丰富度,改善开源行业数据集匮乏的现状,显著增加公共领域高质量行业数据的可获取性,为企业、开发者、科研人员提供了具备行业特性、内容丰富、安全的训练资源,减少开发成本,提高开发效率,助力大模型快速向行业应用阶段发展。

图1 本次开源行业数据量与其他开源数据量的部分对比(GB)

IndustryCorpus 1.0覆盖了18类行业的预训练数据集,其中科技类334GB,法律类275GB,医学类189GB,金融类198GB,新闻类564GB。除此之外,还包含教育、旅游、体育、汽车等,未来将进一步扩展至30类行业。同步发布的还有医疗和教育两个领域的指令微调数据集。IndustryCorpus 1.0的发布,有望大幅提升模型在专业领域的知识性,助力大模型的行业落地应用。

图2 本次开源行业数据集按行业分布情况

为验证行业数据集应用效果,智源选取医疗行业数据集进行示范模型训练。智源基于Aquila通用模型完成继续预训练、SFT训练和RLHF训练,取得了优异的模型行业能力提升。对比继续预训练前的模型,在客观指标方面,采用医疗行业数据集经过继续预训练、SFT和DPO之后的示范医疗模型总体医疗能力提升20.1%(见图3)。在主观评测方面,在经过医疗行业SFT数据和DPO数据的训练后,示范医疗对话模型能力胜率达到82.2%,5分制多轮对话能力CMTMedQA评分达到4.45(见图4)。综上,行业数据集在一定程度上解决了用户行业数据获取难、训练效果不佳的难题。

图3 客观指标方面,采用医疗行业预训练数据集继续预训练、SFT和DPO之后的示范医疗模型总体医疗能力提升20.1%

图4 主观评测方面,经过医疗行业SFT数据和DPO数据训练后,示范医疗对话模型能力胜率达到82.2%

2、启动千万级指令微调数据集 InfinityInstruct 的开源项目

高质量的指令数据是大模型性能的“养料”。本次论坛上,智源研究院发布的千万级高质量指令微调数据集开源项目,包括基于开源数据集进行高质量筛选的数据,和通过数据合成方法构造的高质量指令数据。智源对现有开源数据进行领域分析确保合理类型分布,对大规模数据进行质量筛选保留高价值数据,针对开源数据缺乏的领域和任务,进行数据增广,并结合人工标注对数据质量进行控制,避免合成数据分布偏差。本次大会开源首批300万条经过模型验证的高质量中英文指令数据InfInstruct-3M,并将在未来一个月内完成 InfinityInstruct 千万条指令数据的全部验证和开源。为了验证InfInstruct-3M的质量,我们在Mistral-7B上面进行微调训练得到对话模型InfInstruct-3M-Mistral-7B。在ApacheEval的评测中,该模型明显优于其它同量级的对话模型(见图5)。这意味着,用户可以使用InfInstruct数据集,再加以自有应用数据,对基础模型进行微调,轻松获得专有的高质量中英双语对话模型。

图5 使用ApacheEval评测对比多个对话模型的能力

3、构建通用数据集和行业数据集两大专区,满足用户不同需求

今年以来,智源汇聚了海量可直接用于算法训练的通用数据集和行业数据集。本次论坛上,智源发布通用数据集和行业数据集两大专区。

通用数据集为用于通用基础模型训练的多种模态数据。当前已经汇聚在数据运营平台的通用数据集有116个,总数据量700.27TB,其中文本数据9.76TB,多模态图文数据量75.31TB,视频数据量615TB,音频数据0.2TB。

行业数据集包含了行业领域特有的知识和信息,用于训练各种行业模型,推动人工智能从通用向专业化、精细化持续发展。目前行业专区数据集28个,数据量4.33TB,其中文本数据集22个,数据量4.3TB,多模态图文行业数据集6个,数据量0.03TB。

4、全面升级数据处理工具FlagData3.0,助力数据高质量发展

数据质量直接决定了大模型的输出能力,使用数据处理工具不断提升数据质量变得日益重要。智源研究院长期投入数据建设工作,开发了一批数据处理的高效工具。FlagData数据工具·开源项目包含清洗、标注、压缩、统计分析等功能在内的多个数据处理工具与算法,为提升数据质量带来直接的便利。

本次论坛上,FlagaData2.0全面升级为FlagData 3.0,一方面提供了傻瓜式语言数据处理工具,支持一键式搭建数据处理工作流。另一方面,为专业的进阶用户提供数十种数据加工算子,支持自定义数据处理流程。

三、“行业数据集—场景应用创新计划”启动,加速千行百业大模型落地

为推动人工智能在各行业深入应用、为大模型行业落地提供数据支撑,本次论坛上,智源研究院和中国互联网协会、中国互联网协会人工智能工作委员会联合发布“行业数据集—场景应用创新计划”。向全国企业征集场景应用模型需求,定向提供高质量行业数据集,助力一批场景应用模型的创新。最后,将依据模型应用成果组织评选优秀案例。

这篇关于北京人工智能数据运营平台发布,并开源大规模数据集的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1062321

相关文章

【服务器运维】MySQL数据存储至数据盘

查看磁盘及分区 [root@MySQL tmp]# fdisk -lDisk /dev/sda: 21.5 GB, 21474836480 bytes255 heads, 63 sectors/track, 2610 cylindersUnits = cylinders of 16065 * 512 = 8225280 bytesSector size (logical/physical)

springboot家政服务管理平台 LW +PPT+源码+讲解

3系统的可行性研究及需求分析 3.1可行性研究 3.1.1技术可行性分析 经过大学四年的学习,已经掌握了JAVA、Mysql数据库等方面的编程技巧和方法,对于这些技术该有的软硬件配置也是齐全的,能够满足开发的需要。 本家政服务管理平台采用的是Mysql作为数据库,可以绝对地保证用户数据的安全;可以与Mysql数据库进行无缝连接。 所以,家政服务管理平台在技术上是可以实施的。 3.1

人工智能机器学习算法总结神经网络算法(前向及反向传播)

1.定义,意义和优缺点 定义: 神经网络算法是一种模仿人类大脑神经元之间连接方式的机器学习算法。通过多层神经元的组合和激活函数的非线性转换,神经网络能够学习数据的特征和模式,实现对复杂数据的建模和预测。(我们可以借助人类的神经元模型来更好的帮助我们理解该算法的本质,不过这里需要说明的是,虽然名字是神经网络,并且结构等等也是借鉴了神经网络,但其原型以及算法本质上还和生物层面的神经网络运行原理存在

SQL Server中,查询数据库中有多少个表,以及数据库其余类型数据统计查询

sqlserver查询数据库中有多少个表 sql server 数表:select count(1) from sysobjects where xtype='U'数视图:select count(1) from sysobjects where xtype='V'数存储过程select count(1) from sysobjects where xtype='P' SE

比较学习难度:Adobe Illustrator、Photoshop和新兴在线设计平台

从入门设计开始,几乎没有人不知道 Adobe 公司两大设计软件:Adobe Illustrator和 Photoshop。虽然AI和PS很有名,有一定设计经验的设计师可以在早期探索和使用后大致了解AI和PS的区别,但似乎很少有人会系统地比较AI和PS。目前,设计软件功能多样,轻量级和网页设计软件已成为许多设计师的需求。对于初学者来说,一篇有针对性的AI和PS比较总结文章具有非常重要的指导意义。毕竟

探索Elastic Search:强大的开源搜索引擎,详解及使用

🎬 鸽芷咕:个人主页  🔥 个人专栏: 《C++干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 引入 全文搜索属于最常见的需求,开源的 Elasticsearch (以下简称 Elastic)是目前全文搜索引擎的首选,相信大家多多少少的都听说过它。它可以快速地储存、搜索和分析海量数据。就连维基百科、Stack Overflow、

人工智能做音乐

0 别人做的音乐demo https://yun.baidu.com/share/link?shareid=1799925478&uk=840708891 1 为什么人工智能能做音乐? 最下面蓝色的部分是你输入的音乐。 从上图可以看出,input是一个个的点,然后通过input来相互结合生成灰色的点,经过几层的连接之后,最后的Output就是新生成的音乐,也就是黄色的点。 把黄色的点

智慧环保一体化平台登录

据悉,在当今这个数字化、智能化的时代,环境保护工作也需要与时俱进,不断创新。朗观视觉智慧环保一体化平台应运而生,它利用先进的信息技术手段,为环保工作提供了更加便捷、高效的管理方式,成为推动绿色发展的重要力量。 一、智慧环保一体化平台的诞生背景 随着工业化进程的加快,环境污染问题日益严重,传统的环保管理模式已经难以满足现代社会的需求。为了提高环保工作的效率和质量,智慧环保一体化平台应运而

数据时代的数字企业

1.写在前面 讨论数据治理在数字企业中的影响和必要性,并介绍数据治理的核心内容和实践方法。作者强调了数据质量、数据安全、数据隐私和数据合规等方面是数据治理的核心内容,并介绍了具体的实践措施和案例分析。企业需要重视这些方面以实现数字化转型和业务增长。 数字化转型行业小伙伴可以加入我的星球,初衷成为各位数字化转型参考库,星球内容每周更新 个人工作经验资料全部放在这里,包含数据治理、数据要

如何在Java中处理JSON数据?

如何在Java中处理JSON数据? 大家好,我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编,也是冬天不穿秋裤,天冷也要风度的程序猿!今天我们将探讨在Java中如何处理JSON数据。JSON(JavaScript Object Notation)作为一种轻量级的数据交换格式,在现代应用程序中被广泛使用。Java通过多种库和API提供了处理JSON的能力,我们将深入了解其用法和最佳